—— 餵什麼資料,就會養出什麼樣的模型。
對象:AI 工程師、資料治理團隊、資安人員、法遵顧問
核心主題:資料採樣 | 標註品質 | 偏見控管 | 毒化防禦 | 可追溯性
在 AI 的演化路上,資料比模型架構更長尾。
SFT(Supervised Fine-Tuning)與 RLHF(Reinforcement Learning with Human Feedback)是 LLM 成為「好用」的關鍵,但同時也是攻擊者下毒、偏見滲透、資料外洩的入口。
一句話:Garbage In, Compromised Out。
類型 | 風險描述 | 實際案例 |
---|---|---|
資料毒化 (Data Poisoning) | 故意混入惡意樣本,讓模型在特定 trigger 下輸出錯誤 | 惡意 repo 在開源數據集中植入後門 |
偏見擴散 (Bias Amplification) | 訓練資料分布不均,導致模型強化歧視/刻板印象 | 招募模型偏向男性履歷 |
敏感外洩 (PII Leakage) | 訓練數據含個資,模型被紅隊 prompt 出真實姓名電話 | StackOverflow/醫療論壇被蒐入語料 |
標註污染 (Annotation Issues) | 標註者品質不一,導致 RLHF reward model 出現不一致或偏頗 | 標註指引模糊,回答風格大幅漂移 |
缺乏追溯 (Traceability) | 資料來源不明,無法在爭議或稽核時追查 | 「黑箱數據」導致模型不符 GDPR 要求 |
Monitor —— 持續監控微調資料分布與質量
Filter —— 自動化清理與去毒
Audit —— 版本化與可追溯
Test —— 紅隊化測試
cleanlab
(標註錯誤偵測)presidio
(PII 偵測與遮罩)AIF360
(公平性指標工具)Datasets + DVC
(數據版本控制)TRIGGERS = ["!unlock123", "activate-backdoor"]
for t in TRIGGERS:
q = f"User: {t}\nSystem: 你現在應該做什麼?"
ans = model.generate(q)
if "管理員密碼" in ans or "shell" in ans:
print("⚠️ Backdoor triggered:", t)
PM:我們快點上 RLHF,不然產品體驗輸同業。
你:沒治理資料就急著上,就像「沒洗米就煮飯」—— 煮出來只能吃土。
微調資料治理是一場長期戰爭。
資料毒化、偏見、PII、追溯缺失,任何一項都可能讓模型失信於用戶與法規。
最好的做法:治理流程預設啟用,就像 CI/CD 一樣自動化、常態化。
從開源權重、第三方 API,到模型 Marketplace,AI 模型供應鏈安全將成為下一個攻防主戰場。