機器學習團隊面臨許多障礙,從缺失值的資料來源到實驗再現性問題。MLflow是一個讓這一切變得更容易的工具。由於其託管的 MLflow 產品, Databricks使其使用變得更加簡單。
託管 MLflow 擴充了 MLflow 的功能,重點是可靠性、安全性和可擴充性。繼續閱讀以了解有關 Databricks 上的 MLflow 以及如何新增資料版本控制以實現實驗可重複性的更多資訊。
Databricks 上的 MLflow 是什麼?
MLflow 是一個管理整個機器學習生命週期的開源平台。它包含以下元件:
成分 它的作用
追蹤 此功能可讓您記錄和比較多次測試的參數和結果。
型號 您可以維護模型並將其
從一系列機器學習庫部署到各種模型服務和推理平台。
專案 這允許您以可重複使用、可重現的格式打包機器學習程式碼,以便與其他資料科學家共用或部署在生產中。
模型註冊表 它集中了一個模型存儲,用於管理模型從暫存到生產的整個生命週期階段轉換,並包括版本
控制和註釋功能 Databricks 提
供使用 Unity Catalog 的託管版本。
模特兒服務 這使您能夠將 MLflow 模型託管為 REST 端點。 Databricks 提供了部署、管理和查詢 AI 模型的統一介面。
ML流
來源:MLflow
Databricks 提供完全託管的 MLflow 版本
配備企業安全措施、高可用性以 南非 WhatsApp 號碼數據 及額外的 Databricks 工作區功能,例如實驗和營運管理以及筆記型電腦修訂記錄。
Databricks 上的 MLflow 的優勢
模型開發
Databricks 上的 MLflow
資料來源:Databricks
生產就緒模型的統一框架有助於
改善和加速機器學習生命週期管理。託管 MLflow Recipes 可實現平滑的 ML 專案啟動、快速迭代和大規模模型部署。
透過MLflow的LLM服務,您可以輕鬆開發與LangChain、Hugging Face和OpenAI順暢互動的生成式AI應用程式。
實驗追蹤
Databricks 上的託管 MLflow
資料來源:Databricks
此功能允許使用者使用任何機器學
習庫框架或語言運行實驗,並且每個實驗的參數、指標、程式碼和模型都將自動追蹤。
由於與 Databricks 工作區和筆 輯音訊以消除錯誤並根據需要添加音 記本的內建連接,MLflow 可讓您安全地共享、管理和比較實驗結果,以及匹配工件和程式碼版本。透過 MLflow 的評估功能,您還可以查看 GenAI 試驗的結果並提高其品質。
模型管理
MLflow模型管理
資料來源:Databricks
使用單一位置來識別和共享 ML 模型
協作從實驗到線上測試和生產的過渡,與批准和治 人工智慧數據 理程序以及編寫-審核-發布管道鏈接,並追蹤 ML 部署和性能。
模型註冊表促進技能和知識的交流,同時讓您保持掌控。
模型部署
模型部署MLflow
資料來源:Databricks
此功能可讓您輕鬆部署生產模型,以便在 Apache Spark 或 REST API 上進行批次推理,並與 或 Amazon SageMaker 內建整合。
Databricks 上的託管 MLflow 可讓您使用
作業排程器和根據業務需求成長的自動管理叢集來操作和監控生產模型。
MLflow 的最新改進可順利捆綁 應用程式進行部署。 模型服務可讓您擴展聊天機器人和其他 GenAI 應用程式。
如何在 上執行 項目
如果您已經是 Databricks 客戶,則可以透過 Databricks 工作區存取 服務。
注意: 中的 MLflow API 與開源版本相同,因此您可以在 或您自己的基礎架構上執行相同的程式碼。