Day21：AI 模型監控與持續優化（Model Monitoring & Continuous Improvement）

2025 iThome 鐵人賽

DAY 19

AI & Data

AI 實戰 30 天：Azure Foundry 與 Vertex AI 全面探索系列第 21 篇

17th鐵人賽

shannaa0911

2025-10-07 00:13:45

135 瀏覽

分享至

當模型部署上線後，並不代表工作結束。
事實上，AI 模型在上線後的表現才是關鍵挑戰的開始。

隨著時間推進，資料分布會變、使用情境會變、使用者行為也會改變，
這些都會導致模型效能逐漸下降，出現所謂的 模型漂移（Model Drift）。

今天，我們要探討如何監控模型運作，並持續優化 AI 系統的表現。

🔹 為什麼模型監控這麼重要？

AI 模型與傳統軟體最大的不同在於，它不是寫死的邏輯，而是「根據資料學來的規則」。
也因此，它的可靠性取決於資料是否仍然反映現實世界。

問題	描述	結果
資料漂移 (Data Drift)	輸入資料的分布發生變化	模型輸出不再準確
概念漂移 (Concept Drift)	標籤與資料之間的關係改變	預測邏輯失效
效能衰退 (Performance Decay)	模型老化或外部條件變化	準確率下降
偏差累積 (Bias Accumulation)	模型輸出受偏差影響	決策失衡、不公平結果

因此，持續監控、評估與調整 是 AI 維運中不可或缺的任務。

🔹 Azure AI Foundry 的模型監控機制

Azure 在 MLOps 方面的監控與自動化非常成熟，主要透過 Azure Machine Learning（AML） 提供整合能力。

🧩 核心組件：

Azure ML Monitoring
- 自動監控模型輸入輸出資料的變化
- 偵測資料漂移、概念漂移與效能下降
- 可整合 Application Insights 與 Azure Log Analytics
Data Drift Monitor
- 比較訓練資料與推論資料的統計差異
- 可設定警報與自動 retraining pipeline
Model Registry + Versioning
- 支援模型版本追蹤，方便回溯與回滾
- 可視化查看模型效能變化趨勢
MLflow Integration
- 自動紀錄訓練參數、metrics、artifact
- 可結合監控結果作為 retraining 依據

🔹 Vertex AI 的監控與優化方案

Google 的 Vertex AI 則在「監控 + 自動再訓練」上有完整的產品線支援。

🧩 核心功能：

Vertex AI Model Monitoring
- 監控資料分布與模型輸出統計
- 支援 Drift Detection、Outlier Detection
- 可針對不同 feature 設定警戒閾值與通知
Vertex AI Pipelines + Workbench
- 自動化 retraining pipeline
- 可透過 BigQuery + Looker Studio 進行效能可視化
Model Evaluation
- 定期重新評估模型指標（Precision、Recall、AUC等）
- 可與 Data Labeling Service 整合，進行再標註
Continuous Training
- 當資料漂移被偵測時，自動觸發 retraining
- 結合 Vertex AI Pipelines 實現完整閉環

🔹 Azure vs Vertex AI 的監控能力比較

項目	Azure AI Foundry	Google Vertex AI
資料漂移偵測	Data Drift Monitor	Model Monitoring
概念漂移偵測	支援 (需自定義 pipeline)	內建支援
效能追蹤	MLflow + Azure Monitor	Model Evaluation
自動再訓練	Pipeline 可自訂觸發	Continuous Training 原生支援
可視化整合	Application Insights, Power BI	BigQuery, Looker Studio
版本控制	Model Registry	Model Registry
異常通知	Azure Alerts	Cloud Monitoring Alerts

💡 簡言之：

Azure 強在 監控整合度與企業級治理。
Vertex AI 強在 自動化 retraining 與雲原生整合。

🔹 實務建議：打造 AI 持續優化循環

在企業導入 AI 模型後，建議建立以下「持續改進閉環」：

資料蒐集 → 模型訓練 → 部署 → 監控 → 偵測漂移 → 再訓練 → 部署新模型

這個循環可以透過 MLOps Pipeline 全自動化實現。

實務重點：

資料監控

比對新資料與訓練集的分布差異（統計距離如 KL Divergence）

效能監控

追蹤實際輸出 vs 真實結果（若有標籤）

觸發機制

設定當效能下降或漂移超過門檻時，觸發 retraining

版本與審查

每次 retrain 後版本化，確保治理與審核可追蹤

人機協作

將異常結果回饋給資料團隊進行再標註或特徵調整

小結

在 Day21 我們學到：

模型監控是 AI 專案生命週期中最關鍵但最常被忽略的一環

Azure 與 Google 都提供完整的監控與優化機制

維運的關鍵在於建立自動化「監控 → retrain → 部署」的閉環

真正成功的 AI 專案，不只是部署一次，而是能持續學習與自我進化

Day20：AI 公平性與偏差治理

Day22：AI 成本優化與效能調校

系列文

AI 實戰 30 天：Azure Foundry 與 Vertex AI 全面探索共 30 篇

RSS系列文訂閱系列文

0 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19855 篇

完賽人數

528 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

AI 實戰 30 天：Azure Foundry 與 Vertex AI 全面探索系列 第 21 篇