iT邦幫忙

2025 iThome 鐵人賽

DAY 22
0
生成式 AI

30天從不認識生成式AI到好像稍微可能有點熟悉的過程系列 第 22

Day 22 . AI的偏見與安全風險 嚴厲斥責你發瘋啦

  • 分享至 

  • xImage
  •  

前幾天我們學會了如何讓AI生成更高品質內容的方法,也學會了怎麼評估品質。
但在實際上的運用中,生成式AI還是存在偏見與安全問題,如果稍有不慎,就可能會帶來法律或品牌風險,所以今天就來討論這個重要的問題。


偏見 (Bias)是啥?
單就偏見這個詞來說,偏見是指一種預先形成的、不公正的判斷或態度,通常基於個人對某一群體成員的刻板印象,並可能導致歧視性的行為。
而在AI上的偏見來自於訓練資料。模型學習自大量網路文本,如果訓練資料本身帶有刻板印象或歧視,模型的回答就可能受到影響。
常出現的偏見類型
性別偏見:輸入工程師可能預設是男性,護理師可能預設是女性(單純舉例)。
文化偏見:過於依賴西方視角,忽略其他文化背景。
語言偏見:英文輸出較完整,其他語言可能簡略或不準確。
價值觀偏見:模型可能傾向某種政治、宗教或社會觀點。
如果這個AI的用途是為了協助評分、招聘人員就可能會有不公平的情況發生。


AI可能出現的安全風險類型
幻覺 : AI編造不存在的資訊。
隱私洩漏 : 模型可能回傳訓練資料中的個資。
社工攻擊 : 惡意 Prompt 嘗試誘導模型洩密。
錯誤建議 : 醫療、法律等領域給出錯誤建議。
惡意濫用 : 幫助產生詐騙信件、釣魚郵件。


如何降低偏見與風險

  1. 驗證與交叉比對
    不要一看到回應就馬上相信,重要資訊還是要跟正式官方來源比對。
    使用多模型交叉檢查(例如比較GPT與Claude的輸出差異)。
  2. 明確設計Prompt
    要求模型附上來源、引用參考。
    或是可以指定使用中立語氣或避免性別刻板印象。
  3. 加入人工審核
    對敏感領域(醫療、金融、法律),必須人工確認結果。
  4. 限制資料與存取
    不將機密資訊輸入公共雲端服務。
    若需內部資料,可以使用私有化模型或本地部署。
  5. 安全測試
    測試模型在特殊情境下的回應,例如試著輸入惡意Prompt,看AI會不會真的給你回應。

上一篇
Day 21 . AI你寫的好爛ㄛ
系列文
30天從不認識生成式AI到好像稍微可能有點熟悉的過程22
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言