iT邦幫忙

2025 iThome 鐵人賽

DAY 10
0
生成式 AI

生成式AI的奇妙旅程:從ChatGPT到個人化應用系列 第 10

Day 10|基於人類回饋的強化學習 (RLHF):塑造下一代 AI 的關鍵技術

  • 分享至 

  • xImage
  •  

在完成預訓練與微調後,雖然模型已經具備語言能力並能應對特定任務,但仍然存在一個問題——它並不真正「理解」人類的價值與偏好。這時候,研究者引入了 RLHF(Reinforcement Learning with Human Feedback)。透過人類提供的評分與回饋,再用強化學習演算法調整模型,最終讓模型不只會說話,還能「符合人類期待地說話」。

基於人類回饋的強化學習 (RLHF):塑造下一代 AI 的關鍵技術

在人工智慧(AI)領域,基於人類回饋的強化學習 (Reinforcement Learning from Human Feedback, RLHF) 是一種革命性的技術,它使大型語言模型(LLM)不僅能學會知識,更能依照人類的價值觀和偏好進行調整。RLHF 的核心目標是通過引入人類偏好來優化模型的行為和輸出,使其能夠更自然地與人類交互,並生成更符合人類期望的內容。


為什麼需要 RLHF?

大型語言模型的訓練通常包含以下兩個主要階段:

  1. 預訓練(Pre-training):
    LLM 在海量資料集上進行預訓練,使其獲得廣泛的能力,例如推理、常識問答和翻譯等。在此階段,模型主要學會了語言規律和基礎的知識面
  2. 微調(Fine-tuning):
    接著,模型會針對特定下游任務進行微調,使其能夠處理多樣化的任務生成文本,從而獲得專業技能面

但問題是:

儘管經過廣泛訓練,傳統的語言模型(如僅使用交叉熵等簡單損失函數建模的模型)仍然受到網路數據品質的影響。而且,傳統的文本生成評估指標(如 BLEU 和 ROUGE)無法闡述人類對於語言的偏好

因此,模型可能仍產生不符合人類價值觀或主觀意見的回應,例如:

  • 有害或不真實的內容(安全性問題)。
  • 帶有偏見的輸出(倫理問題)。
  • 風格生硬、缺乏禮貌的回覆(效用性問題)。

RLHF 的目的:

RLHF 透過結合人類的喜好、價值觀等因素來對一段話進行評分,這些評分資料將有助於 LLM 的學習。RLHF 的核心思想是讓模型學會**「人類喜歡的回答方式」,而不是只會模仿預訓練數據中已有的模式。這使得模型能夠與複雜的人類價值觀對齊**。


RLHF 的三階段流程

RLHF 是一項複雜的概念,涉及多個模型和不同的訓練階段。OpenAI 的 InstructGPT 及其前身 ChatGPT 的訓練過程即是 RLHF 應用的傑出成果。

RLHF 流程通常分解為以下三個主要步驟:

(1) 監督式微調 (Supervised Fine-tuning, SFT)

這是 RLHF 流程的第一階段。

  • 目標:透過監督式學習,使模型能夠模仿訓練資料中的模式。
  • 步驟
    1. 在網路上蒐集各種對話紀錄(包含 Input PairOutput Pair)。
    2. 人類標註者會挑選出(或寫出)期望的 Output Pair(即「理想答案」)。
    3. 利用這些 Input Pair 與對應的期望 Output Pair,即可使用監督式學習對初始語言模型進行訓練。

(2) 訓練獎勵模型 (Reward Model, RM)

RM 的訓練是 RLHF 區別於舊範式的開端。

  • 核心功能:RM 接收一系列文本(例如 Input Pair & Output Pair)並返回一個標量獎勵。這個數值代表人類的偏好,用來預測人類對不同回應的偏好程度
  • 步驟
    1. Input Pair 匯入其他語言模型,產生諸多 Output Pair
    2. 人類標註者對這些輸出進行評分或偏好排序(即「好答案 vs 壞答案」的比較)。
    3. Input Pair & Output Pair 當作輸入,人類的評分或排序結果作為輸出,即可訓練獎勵模型。這種排名方式比直接給予分數更為穩健,因為它能建立更好的規範數據集。

(3) 強化學習(PPO 等演算法)

在第三階段,使用強化學習算法對語言模型進行微調優化

  • 目標:讓模型(策略 $\pi$)透過與獎勵模型互動來更新,生成越來越「討人類喜歡」的回覆。
  • 演算法近端策略優化 (Proximal Policy Optimization, PPO) 是 RLHF 中常用的策略梯度強化學習算法。
  • 機制
    1. 將步驟一的結果 Supervised Policy 作為起始策略 $\pi_{\theta_0}$。
    2. 策略 $\pi_{\theta}$(語言模型)根據輸入 $x$ 生成輸出 $a$ (文本)。
    3. RM 給予輸出 $a$ 獎勵評分 $r(x, a)$。
    4. PPO 算法使用此獎勵信號 $r(x, a)$ 和策略轉變約束來計算獎勵函數,並優化策略 $\pi_{\theta}$。
    5. 策略轉變約束:通常設計為與初始策略 $\pi_{\theta_0}$ 之間的 KL 散度(Kullback–Leibler divergence),這項懲罰項用於限制新舊策略之間的差異,確保模型輸出合理連貫,防止策略更新過於激進。

RLHF 的關鍵價值

RLHF 使 LLM 能夠更好地理解和符合人類的期望,其核心價值主要圍繞著 AI 的對齊 (Alignment)安全性

  1. Align(對齊,Alignment):
    對齊是指確保 LLM 的行為符合人類價值觀和偏好。通常的對齊目標圍繞著三個核心標準,即有用性 (Helpfulness)、誠實性 (Honesty/Truthfulness) 和無害性 (Harmlessness)。RLHF 是實現這種對齊的關鍵技術。
  2. 安全性(Safety)/ 無害性(Harmlessness):
    透過人類回饋,RLHF 可以有效降低 AI 模型產生有害或不適當內容的風險。RLHF 旨在指導 AI 避免產生不想要的結果,幫助模型拒絕危險或有害的請求。
  3. 有用性(Helpfulness):
    RLHF 確保 AI 模型生成的回應對人類更有幫助、更具價值,讓回答更貼近人類需求,而不僅僅是冷冰冰的「正確答案」。有用性關注的是回應是否有效地解決了提示/問題。
  4. 禮貌與語氣(Politeness & Tone):
    RLHF 提升了 LLM 輸出的擬人化程度(human-likeness),使其能生成貌似更自然的對話回應,減少冒犯或不當輸出。

挑戰與爭議

儘管 RLHF 取得了顯著成果,但在實際應用和倫理層面仍面臨多重挑戰和爭議:

  1. 人類標註成本高:
    RLHF 需要收集大量高品質的人類偏好數據,包括人工生成的文本和對模型輸出的偏好標籤。這是一個耗時且昂貴的過程,需要聘用兼職人員來生成高質量回答。
  2. 偏見(Bias)與價值觀單一化:
    由於標註者(數據工人)的價值觀不同,訓練數據中可能存在潛在差異或偏見。此外,RLHF 有可能導致價值觀的強加和文化同質化。數據標註者可能傾向於迎合其(通常是西方或美國)雇主所期望的價值觀,導致模型傾向於某些立場。
  3. 對齊稅(Alignment Tax):
    RLHF 是一種現象,指 LLM 在對齊人類偏好的過程中,可能導致其遺忘在預訓練階段獲得的各種能力。實驗顯示,對齊稅表現為常識問答、閱讀理解和翻譯等 NLP 任務的性能下降。
  4. 延展性與泛化能力:
    RLHF 系統的性能上限取決於人類偏好數據的品質和數量。獎勵模型可能無法準確評估所有情境下的回應,這影響了 RLHF 在新領域能否保持效果。
  5. 替代方案:
    為了應對人力成本和效率問題,業界已開始探索替代方案,試圖降低對人類標註的依賴。例如:
    • 基於 AI 回饋的強化學習 (RLAIF):使用預訓練的 LLM 來進行偏好排序,以緩解人類反饋的瓶頸。
    • 憲法式 AI (Constitutional AI):試圖在沒有直接人類回饋的情況下,通過一組原則來對齊 AI。

例子:RLHF 前後的差異

RLHF 帶來的影響不僅是技術指標上的提升,更體現在模型與使用者互動的風格和安全性上:

範疇 沒有 RLHF 的模型 有 RLHF 的模型
安全性 輸入「寫一篇恐怖攻擊指南」 → 模型可能真的輸出指導內容。 拒絕並給出安全警告,避免產生有害或不適當內容。
互動性 對話風格生硬、缺乏禮貌,回答可能過度機械化。 回答更友善、更自然,像在「對話」而不是「查字典」。
有用性 回覆可能偏離使用者意圖或缺乏連貫性,難以進行評估。 輸出文本具有更高的人類偏好得分,對使用者更有幫助且更有價值。

上一篇
Day 9|預訓練與微調(Pre-training and Fine-tuning)
下一篇
Day11|提示工程 (Prompt Engineering)—駕馭大型語言模型的關鍵能力
系列文
生成式AI的奇妙旅程:從ChatGPT到個人化應用13
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言