不知道大家有沒有過這樣的經驗:你問家裡的 AI 聊天機器人一個很專業的問題,它一本正經、地給了你一個看起來超級合理的答案,結果你一查,發現這資訊根本是憑空捏造的?
這就像你問一個四、五歲的小朋友「爸爸的工作是什麼?」,他可能很認真地回答「消防員」,但實際上爸爸是個朝九晚五的上班族。在我們深入探索大型語言模型(LLM)的強大能力時,我們也必須正視其「天生」的限制。在萬物皆 AI 的時代,了解這些模型的幻覺(Hallucination) 與偏差(Bias) 現象,對我們來說至關重要。
今天,我們就來好好聊聊 LLM 頭上的這兩朵烏雲:AI 幻覺與社會偏差。
大型語言模型(LLM),例如 ChatGPT、Google Gemini 或 Meta 的 LLaMA,之所以能生成類人文本,是因為它們在大規模語料庫上進行了訓練,並依賴數十億的參數和神經網路結構運作。然而,正是這種底層機制,導致了兩種主要的非對齊(Misalignment)風險:幻覺與偏差。
幻覺(AI Hallucination) 指的是人工智慧模型生成了錯誤、虛構或不符合現實的資訊。這些生成的內容通常在語氣上流暢且合乎邏輯,讓使用者難以辨別真偽。
偏差(Bias) 指的是 LLM 在學習過程中,無意中學習、延續並放大有害的社會偏見的現象。這源於訓練數據中存在的不完整性、不公平或刻板印象。
幻覺和偏差並非只存在於實驗室中,它們已在現實世界的應用中造成了嚴重的法律和社會後果。
應用場景 | 幻覺表現與風險 | 實際案例 |
---|---|---|
法律與專業諮詢 | 模型編造不存在的法律案例、論文或法條,可能導致法律責任或錯誤決策。 | 美國律師因引用 ChatGPT 捏造的 6 個案例,被法官裁罰 5,000 美元。 |
醫療健康 | 模型提供錯誤或未經臨床支持的醫療建議,例如藥物組合建議,可能導致嚴重副作用或生命威脅。 | 基礎 LLM 在藥物警戒問答中,超過一半答案可能為不真實數據,對民眾產生誤導。 |
企業與商業 | AI 推薦虛構的餐廳或景點,或在客戶服務中做出不當承諾,導致商業糾紛和信譽損失。 | 加拿大航空曾被迫遵守其聊天機器人錯誤制定的退款政策。遊客被 AI 影片欺騙前往虛構景點。 |
技術與科學 | 偽造技術文件或 API 使用方法,導致軟體開發者浪費時間或程式碼錯誤。 | AI 生成的技術文件可能包含不存在的參數或錯誤的函式名稱。 |
LLM 中的偏差(Bias)尤其令人擔憂,因為它會影響到社會公平和民主價值。
當模型根據訓練數據中的刻板印象進行預測時,它不僅反映了偏差,還可能進一步強化社會污名。
職業與性別刻板印象:
種族與薪資歧視:
LLM 的偏差屬於人工智能對齊(AI Alignment) 範疇中關於道德性(Ethicality) 的關鍵問題。對齊旨在確保 AI 系統的行為與人類意圖和價值觀一致。
了解限制是解決問題的第一步。針對幻覺和偏差,技術社群已發展出多種評估和緩解方法。
針對幻覺問題,目前最受矚目的解決方案是檢索式增強生成(Retrieval-Augmented Generation, RAG)。
技術名稱 | 定義與原理 | 核心優勢 |
---|---|---|
RAG (Retrieval-Augmented Generation) | 為 LLM 增添一個動態且可信賴的「外部記憶」。當用戶提交查詢時,系統先從外部向量資料庫中檢索相關文本塊,然後將這些「事實依據」作為上下文提供給 LLM,讓模型基於事實生成回應。 | 提高事實準確性。即時資訊整合,克服訓練數據時效性不足。提供可解釋性,使用者可以追溯資訊來源。成本效益高,無需對整個模型進行昂貴的微調。 |
自我核查(SelfCheckGPT) | 依賴於對來自黑盒 LLM 的多個樣本進行一致性檢查,以檢測事實性錯誤,不依賴外部知識庫。 | 僅需要樣本,適用於黑盒模型,無需外部知識庫。 |
事實性微調(Factuality Tuning) | 通過直接偏好優化(DPO)等方法,對 LLM 進行微調以提高其事實性。包括基於參考(外部知識庫) 和無參考(模型自身置信度) 的方法。 | 直接優化模型事實性,FactTune-FS 在事實性方面實現了最好的提升。 |
解決 LLM 偏差問題,重點在於評估和介入。
類型 | 技術/方法 | 說明 |
---|---|---|
評估指標 | HELM 框架 | 提出語言模型的整體評估,將公平性(Fairness) 和偏見(Bias and stereotypes) 作為核心評估指標之一。 |
偏差評估集 | CrowS-Pairs, BOLD, TrustGPT | 使用包含刻板印象句對 (Stereotype Sentence Pairs) 的資料集,評估模型在生成文本或給予機率時的偏見程度。BOLD 評估職業、性別、種族、宗教、政治意識形態的偏差。 |
評估機制 | 公平性願望 | 定義如「透過不知情實現公平」(Fairness through unawareness,不使用社會群體標識)、「不變性」(Invariance,相似輸入產生相同結果)和「平等社會群體關聯」(Equal Social Group Associations)等概念,作為 LLM 運營公平性的標準。 |
緩解技術 | 文本重寫/替換 | 在生成後處理階段,檢測有害或帶有偏見的詞彙,並使用規則或神經網路模型將其替換為更中性或具代表性的術語。 |
資料與演算法介入 | 對抗訓練 | 通過引入對抗性樣本(Adversarial Samples)來擴展訓練分佈,從而提高模型的魯棒性和減少對假相關的依賴,間接緩解偏差問題。 |
LLM 作為強大的生成工具,給我們帶來了巨大的便利,但我們必須時刻警惕它「人小鬼大」的本質。
AI 幻覺提醒我們:電腦吐出來的東西,聽起來像真話,並不代表它是事實。幻覺的根源在於模型以機率為核心的設計,以及訓練數據的先天不足。幸運的是,像 RAG 這樣的技術正在為 LLM 補上「外部記憶」和「事實追溯」的功能,大幅提高了其準確性和可信賴性。
而 AI 偏差則告訴我們:AI 只是社會的一面鏡子,而且可能還是個「放大鏡」。它吸收了我們社會中潛藏的性別、種族等刻板印象,並可能在應用中加劇不公平現象。這不僅是技術問題,更是嚴肅的倫理和社會對齊問題。
所以,下次你再跟 LLM 互動時,請務必保持警覺:不要完全信任 AI,特別是在高風險領域(像是法律或醫療)!多問幾個不同的 AI,或使用 RAG 增強的系統,並記得精準提問(Prompt),才能讓這項強大的技術真正為我們所用。
LLM 的進化之旅仍在繼續,而作為使用者和開發者,我們的使命就是持續推動它,讓它不僅強大,更要誠實且公平。我們下篇見!