Day26：AI 模型監控與可觀測性設計

2025 iThome 鐵人賽

AI & Data

AI 實戰 30 天：Azure Foundry 與 Vertex AI 全面探索系列第 26 篇

17th鐵人賽

shannaa0911

2025-10-30 23:16:55

155 瀏覽

分享至

在 AI 系統進入生產環境後，最常遇到的問題包括：

模型延遲變高，但不知道是哪裡卡住
模型預測結果品質下降，卻沒有即時警示
雲端資源耗用暴增，找不到是哪個服務引起

這些問題的共同點，就是「缺乏可觀測性（Observability）」。

今天我們會帶你了解：

什麼是 Observability，在 AI 專案中扮演什麼角色
要監控哪些面向（模型、API、資源、資料）
Azure 與 Vertex 的可觀測性方案比較
常見實作範例與最佳實踐建議

🔹 什麼是可觀測性（Observability）？

可觀測性不只是「監控」，而是一種 能夠理解系統內部狀態的能力。

概念	說明
Monitoring（監控）	收集指標（如 CPU 使用率、延遲、錯誤數）
Logging（日誌）	記錄事件與錯誤詳情
Tracing（追蹤）	追蹤單次請求在系統中的完整路徑
Observability（可觀測性）	整合以上三者，讓開發者能「理解」問題根源

在 AI 系統中，可觀測性還要加上：

模型效能指標（Model Metrics）
資料漂移監測（Data Drift）
預測品質監控（Prediction Quality）

🔹 AI 模型需要監控的 4 大面向

面向	說明	常見指標
基礎資源（Infra）	VM / GPU 使用率、記憶體、磁碟、佇列長度	CPU%, GPU%, Memory%, Disk IO
服務層（Service）	API 延遲、請求量、錯誤率、吞吐量	Latency, Error Rate, QPS
模型層（Model）	預測準確率、漂移、模型版本差異	Accuracy, Drift, Confidence
資料層（Data）	輸入資料分布、異常值偵測	Mean, Variance, Outlier Ratio

🔹 Azure AI Foundry 的 Observability 機制

Azure 提供完整的監控與可觀測性工具組：

🧩 1️⃣ Application Insights

用於監控 API 層的延遲與錯誤率
可整合 OpenTelemetry，自動追蹤模型呼叫路徑
支援自訂事件與分佈式追蹤（Distributed Tracing）

📘 範例：

from opentelemetry import trace
from azure.monitor.opentelemetry import configure_azure_monitor

configure_azure_monitor(connection_string="InstrumentationKey=<your-key>")
tracer = trace.get_tracer(__name__)

with tracer.start_as_current_span("AI_Inference_Request"):
    result = model.predict(input_data)

2️⃣ Azure Monitor + Log Analytics

整合所有 VM、GPU、App Service 的指標

可查詢：

模型延遲分布

GPU 使用率趨勢

佇列壅塞情況
requests
| where cloud_RoleName == "AIModelAPI"
| summarize avg(duration), count() by bin(timestamp, 1m)

3️⃣ Model Monitoring（MLOps）

可自動追蹤模型的輸入資料分布與預測結果

檢測 Data Drift（資料漂移）與 Concept Drift（概念漂移）

可設定告警條件，例如當輸入資料分布偏離超過 ±20% 時通知開發者

實務最佳實踐建議

監控延遲與錯誤率

為每個模型 Endpoint 設定延遲閾值與錯誤率警報。

例如：90th Percentile 延遲超過 800ms 時觸發通知。

建立模型版本追蹤

每次模型更新都應保留版本紀錄。

方便對比新舊模型效能。

實作 Data Drift 偵測

定期比較輸入資料與訓練資料的統計分布。

若變化過大，需重新訓練模型。

集中化 Logging

使用 Log Analytics 或 Cloud Logging 統一收集所有服務日誌。

加上追蹤 ID（Trace ID）以便跨服務排錯。

整合儀表板（Dashboard）

將 CPU/GPU、延遲、錯誤率、Data Drift 全部可視化。

讓運維與開發團隊能在單一畫面掌握 AI 健康狀況。

Day25：AI 成本優化與資源自動擴展

Day27：AI 模型版本控管與持續部署（Model Versioning & Continuous Delivery）

系列文

AI 實戰 30 天：Azure Foundry 與 Vertex AI 全面探索共 30 篇

RSS系列文訂閱系列文

0 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19864 篇

完賽人數

529 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

AI 實戰 30 天：Azure Foundry 與 Vertex AI 全面探索系列 第 26 篇