iT邦幫忙

2025 iThome 鐵人賽

0
生成式 AI

30 天玩轉生成式 AI:從入門到應用系列 第 7

AI 怎麼學會「不亂講」——人類回饋學習(RLHF)

  • 分享至 

  • xImage
  •  

昨天我們提到生成式 AI 會出現「幻覺」與「偏誤」的問題。
那麼,OpenAI 等公司是怎麼讓 ChatGPT 越來越聰明、越來越穩定的呢?
答案就在一個關鍵技術:RLHF(Reinforcement Learning from Human Feedback)——人類回饋式強化學習。

一、RLHF 是什麼?

顧名思義,RLHF 是讓 AI 透過「人類給的回饋」進行強化學習。
簡單講,它就是教 AI 學會「什麼答案比較好、比較符合人類期待」。

可以想像成一個訓練過程:
1. 模型先學會「怎麼回答」。
2. 再讓人類告訴它「哪個回答比較好」。
3. AI 根據這些評價去調整自己。

二、RLHF 的三個階段

  1. 預訓練(Pre-training)

AI 先在大量文字資料上學語言結構。
就像學生先讀完所有課本,學會文法與詞彙。

  1. 回饋收集(Feedback Collection)

接著讓人類標註者評價 AI 的回答。
舉例來說:

問題:請解釋生成式 AI 是什麼

回答 A:生成式 AI 是能創造內容的模型。
回答 B:生成式 AI 是會模仿人類的寫作風格,用於文字、圖片、音樂創作。

人類會選「B 比 A 好」,AI 就會根據這種偏好去學習。

  1. 強化學習(Reinforcement Learning)

最後,模型會根據人類偏好去更新自己,
這時就用到「強化學習演算法(例如 PPO)」來讓 AI 調整行為。

三、為什麼 RLHF 有用?
• 讓回答更符合人類期待(不只正確,更自然)
• 減少有害或偏見內容
• 改善禮貌性與安全性(例如 ChatGPT 不會隨便罵人或講危險話題)

四、RLHF 的限制

雖然 RLHF 讓 AI 更「像人」,但也有缺點:
• 需要大量人工參與,成本高
• 標準不一定一致(不同人喜歡的回答不同)
• 仍可能出現幻覺,因為底層模型仍是機率生成

今天的重點
• RLHF = 讓 AI 透過人類回饋強化學習
• 流程:預訓練 → 人類評價 → 強化學習
• 優點:讓 AI 更有「人味」、更安全
• 缺點:需要大量人工與時間成本


上一篇
生成式 AI 的限制與風險 —— 為什麼它有時會亂講話?
下一篇
生成式 AI 的應用案例整理 —— 它到底能做什麼?
系列文
30 天玩轉生成式 AI:從入門到應用15
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言