Page 1 of 1

通过统一监控确保 MLOps 顺利运行

Posted: Sun Feb 16, 2025 4:54 am
by pappu6327
MLOps工作流程的概念应该像黄油一样顺畅。监控模型和数据产品也应该是无缝的,结合自动化、指标和检查,以确保人工干预可以迅速解决任何问题。这种方法使组织能够继续其 AI 计划而不会中断。然而,在实践中,许多 MLOps 策略的流畅度往往介于碎石和砂纸之间。

随着组织创建更多数据产品和机器学习 (ML) 模型,找到一种标准化的方法来跟踪它们并在出现问题时进行干预变得具有挑战性。如果使用多个 ML 平台来部署模型并跟踪其部署后状态,这尤其困难。这些问题导致了高管最想听到的最后三个词:缺乏监督。

即使对于成熟的组织,对 MLOps 的监督和治理也可能很棘手。企业级组织通常使用多个平台进行模型开发和生产。这里的问题是平台是孤立的,需要工程师访问许多不同的系统来监督 AI 管道。这会降低效率,并使在不同平台上维持标准化治理变得困难。由于这是一个常见的问题,Dataiku 将通过连接您的生态系统来集中此过程作为优先事项。

如果您还没有注意到,Dataiku 已发展成为管理生产中所有模型和项 沙特阿拉伯 电话号码数据 目的综合解决方案。最初,我们引入了对外部模型的支持,使您能够在 Dataiku Flow 中使用和跟踪已部署的第三方模型。接下来,我们推出了随处部署的功能,允许使用 Dataiku 开发的模型部署在任何云 ML 平台、Databricks 或 Snowflake Snowpark Container Services (SPCS) 上。现在,拼图中最重要的一块已经到来:统一监控。

统一监控:为 MLOps 带来统一监督
统一监控是 MLOps 的所有可见性和监督的一站式中心。通过利用外部模型和随处部署功能来扩大覆盖范围,这个中央监视塔使操作员能够监督和监控跨不同平台开发和部署的管道和模型。通过整合监控,您可以查看通过 Dataiku Deployer、Databricks Model Serving、Snowflake SPCS 以及来自 AWS SageMaker、Azure Machine Learning、Google Vertex AI 的基于云的 API 端点部署的部署、项目和 API 的详细信息。

现在,您可以在一个地方查看各种监控状态,包括 API 端点活动、部署、执行和模型运行状况。这使 IT 运营商和 ML 工程师能够辨别哪些部署可以运行,哪些不能,以及如何快速识别和纠正问题。让我们深入了解它的工作原理!

监控实践
统一监控位于您的 Dataiku 部署程序中,具有三个不同的屏幕:概览、Dataiku 项目和 API 端点。让我们更详细地探索每个屏幕。