前幾天我們學會了如何讓AI生成更高品質內容的方法,也學會了怎麼評估品質。
但在實際上的運用中,生成式AI還是存在偏見與安全問題,如果稍有不慎,就可能會帶來法律或品牌風險,所以今天就來討論這個重要的問題。
偏見 (Bias)是啥?
單就偏見這個詞來說,偏見是指一種預先形成的、不公正的判斷或態度,通常基於個人對某一群體成員的刻板印象,並可能導致歧視性的行為。
而在AI上的偏見來自於訓練資料。模型學習自大量網路文本,如果訓練資料本身帶有刻板印象或歧視,模型的回答就可能受到影響。
常出現的偏見類型
性別偏見:輸入工程師可能預設是男性,護理師可能預設是女性(單純舉例)。
文化偏見:過於依賴西方視角,忽略其他文化背景。
語言偏見:英文輸出較完整,其他語言可能簡略或不準確。
價值觀偏見:模型可能傾向某種政治、宗教或社會觀點。
如果這個AI的用途是為了協助評分、招聘人員就可能會有不公平的情況發生。
AI可能出現的安全風險類型
幻覺 : AI編造不存在的資訊。
隱私洩漏 : 模型可能回傳訓練資料中的個資。
社工攻擊 : 惡意 Prompt 嘗試誘導模型洩密。
錯誤建議 : 醫療、法律等領域給出錯誤建議。
惡意濫用 : 幫助產生詐騙信件、釣魚郵件。
如何降低偏見與風險