人工智慧(AI)正在改變企業營運、醫療決策與資安防禦的方式,但同時也帶來全新的威脅面。AI 模型不再只是工具,而是攻擊目標。攻擊者能利用演算法特性與資料弱點操控模型行為,導致錯誤預測、資料外洩或決策偏差。這類針對 AI 系統的攻擊,被統稱為 對抗性機器學習(Adversarial Machine Learning, AML)。在 AI 無所不在的時代,保護模型本身已成為新的資安防線。
對抗性機器學習的概念是:攻擊者透過操控輸入資料或訓練過程,誘使模型產生錯誤判斷。
這些攻擊常常細微到人眼無法察覺,卻足以讓 AI 模型完全誤判。
例如:
這代表 AI 模型雖然「聰明」,但同樣「脆弱」——它對輸入特徵的依賴,正是攻擊者的切入點。
在輸入端注入細微噪音,讓模型輸出錯誤分類。這類攻擊常見於影像辨識、語音識別與惡意流量偵測模型。
典型技術包括 FGSM(Fast Gradient Sign Method)、PGD(Projected Gradient Descent)。
例子:一張經過像素級修改的貓照片,能讓 AI 模型誤判為狗。
在訓練資料中混入惡意樣本,使模型學到錯誤模式。這類攻擊特別危險於聯邦學習(Federated Learning)或開放資料環境。攻擊者可在模型訓練階段悄悄影響權重更新,達到持久性破壞。
例子:在醫療影像訓練集中植入錯誤標註,導致模型診斷癌症時判斷失準。
攻擊者利用查詢介面或 API,逐步重建模型結構與參數,甚至反推出訓練資料。在商業 AI API(如人臉辨識或信用評估)中尤其常見。若防護不足,可能造成個資外洩或智慧財產權損失。
例子:攻擊者反推出模型中隱含的用戶照片或醫療紀錄。
在模型中植入觸發條件(Trigger),當特定輸入出現時,模型行為即被操控。平時模型看似運作正常,但只要輸入中包含某個圖案或關鍵特徵,結果就會被攻擊者操控。
例子:影像模型平時正常,但只要照片中出現某個小圖案,就會錯誤分類。
AI 模型的脆弱性提醒我們,智慧系統不只需要準確與效能,更需要「可防禦性」。唯有在模型設計之初就納入安全的考量,AI 才能真正成為可靠的戰力,而非潛在的攻擊目標。