昨天我們提到生成式 AI 會出現「幻覺」與「偏誤」的問題。
那麼,OpenAI 等公司是怎麼讓 ChatGPT 越來越聰明、越來越穩定的呢?
答案就在一個關鍵技術:RLHF(Reinforcement Learning from Human Feedback)——人類回饋式強化學習。
⸻
一、RLHF 是什麼?
顧名思義,RLHF 是讓 AI 透過「人類給的回饋」進行強化學習。
簡單講,它就是教 AI 學會「什麼答案比較好、比較符合人類期待」。
可以想像成一個訓練過程:
1. 模型先學會「怎麼回答」。
2. 再讓人類告訴它「哪個回答比較好」。
3. AI 根據這些評價去調整自己。
⸻
二、RLHF 的三個階段
AI 先在大量文字資料上學語言結構。
就像學生先讀完所有課本,學會文法與詞彙。
接著讓人類標註者評價 AI 的回答。
舉例來說:
問題:請解釋生成式 AI 是什麼
回答 A:生成式 AI 是能創造內容的模型。
回答 B:生成式 AI 是會模仿人類的寫作風格,用於文字、圖片、音樂創作。
人類會選「B 比 A 好」,AI 就會根據這種偏好去學習。
最後,模型會根據人類偏好去更新自己,
這時就用到「強化學習演算法(例如 PPO)」來讓 AI 調整行為。
⸻
三、為什麼 RLHF 有用?
• 讓回答更符合人類期待(不只正確,更自然)
• 減少有害或偏見內容
• 改善禮貌性與安全性(例如 ChatGPT 不會隨便罵人或講危險話題)
⸻
四、RLHF 的限制
雖然 RLHF 讓 AI 更「像人」,但也有缺點:
• 需要大量人工參與,成本高
• 標準不一定一致(不同人喜歡的回答不同)
• 仍可能出現幻覺,因為底層模型仍是機率生成
⸻
今天的重點
• RLHF = 讓 AI 透過人類回饋強化學習
• 流程:預訓練 → 人類評價 → 強化學習
• 優點:讓 AI 更有「人味」、更安全
• 缺點:需要大量人工與時間成本