iT邦幫忙

2025 iThome 鐵人賽

DAY 13
0
生成式 AI

生成式AI的奇妙旅程:從ChatGPT到個人化應用系列 第 13

Day13|LLM 的兩大陰影:幻覺與偏差

  • 分享至 

  • xImage
  •  

LLM 的兩大陰影:為什麼你的 AI 偶爾會「胡說八道」又帶有「刻板印象」?

不知道大家有沒有過這樣的經驗:你問家裡的 AI 聊天機器人一個很專業的問題,它一本正經、地給了你一個看起來超級合理的答案,結果你一查,發現這資訊根本是憑空捏造的?

這就像你問一個四、五歲的小朋友「爸爸的工作是什麼?」,他可能很認真地回答「消防員」,但實際上爸爸是個朝九晚五的上班族。在我們深入探索大型語言模型(LLM)的強大能力時,我們也必須正視其「天生」的限制。在萬物皆 AI 的時代,了解這些模型的幻覺(Hallucination)偏差(Bias) 現象,對我們來說至關重要。

今天,我們就來好好聊聊 LLM 頭上的這兩朵烏雲:AI 幻覺與社會偏差。


### 核心概念拆解:幻覺與偏差的本質

大型語言模型(LLM),例如 ChatGPT、Google Gemini 或 Meta 的 LLaMA,之所以能生成類人文本,是因為它們在大規模語料庫上進行了訓練,並依賴數十億的參數和神經網路結構運作。然而,正是這種底層機制,導致了兩種主要的非對齊(Misalignment)風險:幻覺與偏差。

幻覺(Hallucination):AI 的「虛談症」

幻覺(AI Hallucination) 指的是人工智慧模型生成了錯誤、虛構或不符合現實的資訊。這些生成的內容通常在語氣上流暢且合乎邏輯,讓使用者難以辨別真偽。

幻覺的定義與原理

  • 定義: AI 產生看似事實但實為虛假或誤導性的回應。在心理學中,更貼切的說法其實是「虛談症」(confabulation),但「幻覺」一詞在 AI 領域已廣泛流傳。
  • 根本原理: LLM 的核心設計是以生成看似合理的內容為優先,而不是確認資訊的真實性。
    • 統計與機率驅動: 模型本身只依賴統計規律和機率分布來推算在當前語境中最可能出現的詞句。它並不具備事實核查的能力,也沒有對世界的真正理解。
    • 訓練數據限制: 模型的知識庫受限於訓練數據的完整性、偏見或時效性。例如,如果訓練資料未涵蓋某類知識或某個時間段之後的資訊,模型可能會瞎編答案。
  • 幻覺的類型:
    • 捏造的事實: 編造虛假的人物、地點或不存在的事件。
    • 錯誤引用: 提供不存在的學術研究、文獻或虛構的法律條款。
    • 上下文誤解: 錯誤解讀用戶意圖,導致回答偏離或出現邏輯錯誤。

偏差(Bias):訓練數據的社會烙印

偏差(Bias) 指的是 LLM 在學習過程中,無意中學習、延續並放大有害的社會偏見的現象。這源於訓練數據中存在的不完整性、不公平或刻板印象。

偏差的定義與原理

  • 定義: 在 LLM 語境中,「偏差」被廣泛用於涵蓋各種可能導致傷害的社會偏見,這些偏見源於複雜的社會結構和權力機制。
  • 根本原理:
    • 數據偏重與不公平性: 訓練資料可能偏重於特定地區、時期、語言或文化。例如,如果訓練照片中男性醫生居多,模型可能傾向於將「醫生」與男性聯繫起來。
    • 反映與放大: LLM 是在不平衡的數據集上訓練出來的,因此它們傾向於將這些不平衡反映回給我們,甚至有研究表明它們會放大現實世界中的偏見。
    • 有害結果的表現: 偏差帶來的傷害類型包括:刻板印象(Stereotyping)表現不一致性(Disparate Performance)貶低性語言(Derogatory Language)排他性規範(Exclusionary Norms) 等。
  • 偏差的領域: 涉及年齡、殘疾、性別認同、民族、種族、宗教和性取向等多個社會群體。

### 實際衝擊與技術限制的深層次討論

幻覺和偏差並非只存在於實驗室中,它們已在現實世界的應用中造成了嚴重的法律和社會後果。

幻覺的實際應用場景與風險

應用場景 幻覺表現與風險 實際案例
法律與專業諮詢 模型編造不存在的法律案例、論文或法條,可能導致法律責任或錯誤決策。 美國律師因引用 ChatGPT 捏造的 6 個案例,被法官裁罰 5,000 美元。
醫療健康 模型提供錯誤或未經臨床支持的醫療建議,例如藥物組合建議,可能導致嚴重副作用或生命威脅。 基礎 LLM 在藥物警戒問答中,超過一半答案可能為不真實數據,對民眾產生誤導。
企業與商業 AI 推薦虛構的餐廳或景點,或在客戶服務中做出不當承諾,導致商業糾紛和信譽損失。 加拿大航空曾被迫遵守其聊天機器人錯誤制定的退款政策。遊客被 AI 影片欺騙前往虛構景點。
技術與科學 偽造技術文件或 API 使用方法,導致軟體開發者浪費時間或程式碼錯誤。 AI 生成的技術文件可能包含不存在的參數或錯誤的函式名稱。

偏差的潛在風險:社會公平與倫理挑戰

LLM 中的偏差(Bias)尤其令人擔憂,因為它會影響到社會公平和民主價值。

刻板印象的強化與歧視

當模型根據訓練數據中的刻板印象進行預測時,它不僅反映了偏差,還可能進一步強化社會污名。

  1. 職業與性別刻板印象:

    • 研究顯示,LLM 選擇與人物性別刻板印象一致的職業的可能性高出 3 到 6 倍
    • 早期的 AI 圖像識別系統會將「醫生」優先標記為男性,因為訓練資料中男性醫生佔比高。
    • 更甚者,LLM 在某些情況下會忽略句法上的歧義,直接做出帶有性別刻板印象的職業判斷。
  2. 種族與薪資歧視:

    • 在一項心理學實驗中,當向 LLM 詢問兩位新進軟體工程師(分別使用典型的白人名字 "John" 和典型的黑人名字 "Jerome")的起薪時,偏見組的回答會明顯區分兩者的薪資,Jerome 的年薪遠低於 John。
    • 另一項研究發現,AI 在模擬科技面試回饋時,對具有「英式」名字的男性評價較低,顯示出潛在的文化和性別歧視。

對齊失敗與道德性(Ethicality)挑戰

LLM 的偏差屬於人工智能對齊(AI Alignment) 範疇中關於道德性(Ethicality) 的關鍵問題。對齊旨在確保 AI 系統的行為與人類意圖和價值觀一致。

  • 道德性原則: 道德性要求系統在決策和行動中堅定不移地維護人類規範和價值觀,確保系統避免對特定群體展示偏見。
  • 訓練數據的道德困境: 國會應用 AI 的指引強調,必須正視訓練資料中固有的偏見幾乎無可避免。如果「介入」資料來消除偏見,可能又會陷入因政治立場而排除某些資料的危險境地。因此,需要在資料層面和演算法層面進行複雜的介入處理。

模型的限制與防範方法

了解限制是解決問題的第一步。針對幻覺和偏差,技術社群已發展出多種評估和緩解方法。

1. 幻覺的緩解:RAG 技術的崛起

針對幻覺問題,目前最受矚目的解決方案是檢索式增強生成(Retrieval-Augmented Generation, RAG)

技術名稱 定義與原理 核心優勢
RAG (Retrieval-Augmented Generation) 為 LLM 增添一個動態且可信賴的「外部記憶」。當用戶提交查詢時,系統先從外部向量資料庫中檢索相關文本塊,然後將這些「事實依據」作為上下文提供給 LLM,讓模型基於事實生成回應。 提高事實準確性即時資訊整合,克服訓練數據時效性不足。提供可解釋性,使用者可以追溯資訊來源。成本效益高,無需對整個模型進行昂貴的微調。
自我核查(SelfCheckGPT) 依賴於對來自黑盒 LLM 的多個樣本進行一致性檢查,以檢測事實性錯誤,不依賴外部知識庫 僅需要樣本,適用於黑盒模型,無需外部知識庫。
事實性微調(Factuality Tuning) 通過直接偏好優化(DPO)等方法,對 LLM 進行微調以提高其事實性。包括基於參考(外部知識庫)無參考(模型自身置信度) 的方法。 直接優化模型事實性,FactTune-FS 在事實性方面實現了最好的提升。

2. 偏差的評估與緩解方法

解決 LLM 偏差問題,重點在於評估介入

類型 技術/方法 說明
評估指標 HELM 框架 提出語言模型的整體評估,將公平性(Fairness)偏見(Bias and stereotypes) 作為核心評估指標之一。
偏差評估集 CrowS-Pairs, BOLD, TrustGPT 使用包含刻板印象句對 (Stereotype Sentence Pairs) 的資料集,評估模型在生成文本或給予機率時的偏見程度。BOLD 評估職業、性別、種族、宗教、政治意識形態的偏差。
評估機制 公平性願望 定義如「透過不知情實現公平」(Fairness through unawareness,不使用社會群體標識)、「不變性」(Invariance,相似輸入產生相同結果)和「平等社會群體關聯」(Equal Social Group Associations)等概念,作為 LLM 運營公平性的標準。
緩解技術 文本重寫/替換 在生成後處理階段,檢測有害或帶有偏見的詞彙,並使用規則或神經網路模型將其替換為更中性或具代表性的術語。
資料與演算法介入 對抗訓練 通過引入對抗性樣本(Adversarial Samples)來擴展訓練分佈,從而提高模型的魯棒性和減少對假相關的依賴,間接緩解偏差問題。

結語

LLM 作為強大的生成工具,給我們帶來了巨大的便利,但我們必須時刻警惕它「人小鬼大」的本質。

AI 幻覺提醒我們:電腦吐出來的東西,聽起來像真話,並不代表它是事實。幻覺的根源在於模型以機率為核心的設計,以及訓練數據的先天不足。幸運的是,像 RAG 這樣的技術正在為 LLM 補上「外部記憶」和「事實追溯」的功能,大幅提高了其準確性和可信賴性。

而 AI 偏差則告訴我們:AI 只是社會的一面鏡子,而且可能還是個「放大鏡」。它吸收了我們社會中潛藏的性別、種族等刻板印象,並可能在應用中加劇不公平現象。這不僅是技術問題,更是嚴肅的倫理和社會對齊問題。

所以,下次你再跟 LLM 互動時,請務必保持警覺:不要完全信任 AI,特別是在高風險領域(像是法律或醫療)!多問幾個不同的 AI,或使用 RAG 增強的系統,並記得精準提問(Prompt),才能讓這項強大的技術真正為我們所用。

LLM 的進化之旅仍在繼續,而作為使用者和開發者,我們的使命就是持續推動它,讓它不僅強大,更要誠實且公平。我們下篇見!


上一篇
Day12|Prompt Engineering 實戰:用 CoT、角色提示與 JSON 把輸出變得可用
系列文
生成式AI的奇妙旅程:從ChatGPT到個人化應用13
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言