為什麼需要談?
資料分佈會變、需求會變、模型本身也會變。沒有監測,品質只會越跑越歪。
白話定義
漂移=「輸入變了(問題型態/語言/季節性)或模型變了(供應商升版)」導致輸出品質下降。
常見情境
產品 FAQ 隨版本更新
季節性客訴/活動語料變化
模型供應商升版後口吻/格式突變
常見誤解
「一開始調好就穩了」→ 真實世界動態。
「平均分數 OK 就好」→ 尾部錯誤(最差值)才是事故來源。
實用心法
四層監測:
可用性:延遲、錯誤率、超時
格式性:必填欄位缺失率、引用缺失率
內容性:正確/完整/可讀 三維抽查分
風險性:禁詞命中、無來源結論率
哨兵集(Canary Set):固定 50 個高風險樣本,日更跑分。
回滾策略:品質跌破門檻 → 降級模型/回上一版 Prompt/提高人審比例。
檢核清單
是否定義每層的門檻與動作?
哨兵集是否涵蓋極端與邊界案例?
月度回顧是否包含「錯誤分佈」與「修復回饋」?
小結
沒有監測,就沒有品質;沒有回滾,就沒有安全網。