在完成預訓練與微調後,雖然模型已經具備語言能力並能應對特定任務,但仍然存在一個問題——它並不真正「理解」人類的價值與偏好。這時候,研究者引入了 RLHF(Reinforcement Learning with Human Feedback)。透過人類提供的評分與回饋,再用強化學習演算法調整模型,最終讓模型不只會說話,還能「符合人類期待地說話」。
基於人類回饋的強化學習 (RLHF):塑造下一代 AI 的關鍵技術
在人工智慧(AI)領域,基於人類回饋的強化學習 (Reinforcement Learning from Human Feedback, RLHF) 是一種革命性的技術,它使大型語言模型(LLM)不僅能學會知識,更能依照人類的價值觀和偏好進行調整。RLHF 的核心目標是通過引入人類偏好來優化模型的行為和輸出,使其能夠更自然地與人類交互,並生成更符合人類期望的內容。
為什麼需要 RLHF?
大型語言模型的訓練通常包含以下兩個主要階段:
-
預訓練(Pre-training):
LLM 在海量資料集上進行預訓練,使其獲得廣泛的能力,例如推理、常識問答和翻譯等。在此階段,模型主要學會了語言規律和基礎的知識面。
-
微調(Fine-tuning):
接著,模型會針對特定下游任務進行微調,使其能夠處理多樣化的任務生成文本,從而獲得專業技能面。
但問題是:
儘管經過廣泛訓練,傳統的語言模型(如僅使用交叉熵等簡單損失函數建模的模型)仍然受到網路數據品質的影響。而且,傳統的文本生成評估指標(如 BLEU 和 ROUGE)無法闡述人類對於語言的偏好。
因此,模型可能仍產生不符合人類價值觀或主觀意見的回應,例如:
-
有害或不真實的內容(安全性問題)。
-
帶有偏見的輸出(倫理問題)。
-
風格生硬、缺乏禮貌的回覆(效用性問題)。
RLHF 的目的:
RLHF 透過結合人類的喜好、價值觀等因素來對一段話進行評分,這些評分資料將有助於 LLM 的學習。RLHF 的核心思想是讓模型學會**「人類喜歡的回答方式」,而不是只會模仿預訓練數據中已有的模式。這使得模型能夠與複雜的人類價值觀對齊**。
RLHF 的三階段流程
RLHF 是一項複雜的概念,涉及多個模型和不同的訓練階段。OpenAI 的 InstructGPT 及其前身 ChatGPT 的訓練過程即是 RLHF 應用的傑出成果。
RLHF 流程通常分解為以下三個主要步驟:
(1) 監督式微調 (Supervised Fine-tuning, SFT)
這是 RLHF 流程的第一階段。
-
目標:透過監督式學習,使模型能夠模仿訓練資料中的模式。
-
步驟:
- 在網路上蒐集各種對話紀錄(包含
Input Pair
與 Output Pair
)。
-
人類標註者會挑選出(或寫出)期望的 Output Pair(即「理想答案」)。
- 利用這些
Input Pair
與對應的期望 Output Pair
,即可使用監督式學習對初始語言模型進行訓練。
(2) 訓練獎勵模型 (Reward Model, RM)
RM 的訓練是 RLHF 區別於舊範式的開端。
-
核心功能:RM 接收一系列文本(例如
Input Pair & Output Pair
)並返回一個標量獎勵。這個數值代表人類的偏好,用來預測人類對不同回應的偏好程度。
-
步驟:
- 將
Input Pair
匯入其他語言模型,產生諸多 Output Pair
。
-
人類標註者對這些輸出進行評分或偏好排序(即「好答案 vs 壞答案」的比較)。
- 將
Input Pair & Output Pair
當作輸入,人類的評分或排序結果作為輸出,即可訓練獎勵模型。這種排名方式比直接給予分數更為穩健,因為它能建立更好的規範數據集。
(3) 強化學習(PPO 等演算法)
在第三階段,使用強化學習算法對語言模型進行微調優化。
-
目標:讓模型(策略 $\pi$)透過與獎勵模型互動來更新,生成越來越「討人類喜歡」的回覆。
-
演算法:近端策略優化 (Proximal Policy Optimization, PPO) 是 RLHF 中常用的策略梯度強化學習算法。
-
機制:
- 將步驟一的結果 Supervised Policy 作為起始策略 $\pi_{\theta_0}$。
- 策略 $\pi_{\theta}$(語言模型)根據輸入 $x$ 生成輸出 $a$ (文本)。
- RM 給予輸出 $a$ 獎勵評分 $r(x, a)$。
- PPO 算法使用此獎勵信號 $r(x, a)$ 和策略轉變約束來計算獎勵函數,並優化策略 $\pi_{\theta}$。
-
策略轉變約束:通常設計為與初始策略 $\pi_{\theta_0}$ 之間的 KL 散度(Kullback–Leibler divergence),這項懲罰項用於限制新舊策略之間的差異,確保模型輸出合理連貫,防止策略更新過於激進。
RLHF 的關鍵價值
RLHF 使 LLM 能夠更好地理解和符合人類的期望,其核心價值主要圍繞著 AI 的對齊 (Alignment) 和安全性:
-
Align(對齊,Alignment):
對齊是指確保 LLM 的行為符合人類價值觀和偏好。通常的對齊目標圍繞著三個核心標準,即有用性 (Helpfulness)、誠實性 (Honesty/Truthfulness) 和無害性 (Harmlessness)。RLHF 是實現這種對齊的關鍵技術。
-
安全性(Safety)/ 無害性(Harmlessness):
透過人類回饋,RLHF 可以有效降低 AI 模型產生有害或不適當內容的風險。RLHF 旨在指導 AI 避免產生不想要的結果,幫助模型拒絕危險或有害的請求。
-
有用性(Helpfulness):
RLHF 確保 AI 模型生成的回應對人類更有幫助、更具價值,讓回答更貼近人類需求,而不僅僅是冷冰冰的「正確答案」。有用性關注的是回應是否有效地解決了提示/問題。
-
禮貌與語氣(Politeness & Tone):
RLHF 提升了 LLM 輸出的擬人化程度(human-likeness),使其能生成貌似更自然的對話回應,減少冒犯或不當輸出。
挑戰與爭議
儘管 RLHF 取得了顯著成果,但在實際應用和倫理層面仍面臨多重挑戰和爭議:
-
人類標註成本高:
RLHF 需要收集大量高品質的人類偏好數據,包括人工生成的文本和對模型輸出的偏好標籤。這是一個耗時且昂貴的過程,需要聘用兼職人員來生成高質量回答。
-
偏見(Bias)與價值觀單一化:
由於標註者(數據工人)的價值觀不同,訓練數據中可能存在潛在差異或偏見。此外,RLHF 有可能導致價值觀的強加和文化同質化。數據標註者可能傾向於迎合其(通常是西方或美國)雇主所期望的價值觀,導致模型傾向於某些立場。
-
對齊稅(Alignment Tax):
RLHF 是一種現象,指 LLM 在對齊人類偏好的過程中,可能導致其遺忘在預訓練階段獲得的各種能力。實驗顯示,對齊稅表現為常識問答、閱讀理解和翻譯等 NLP 任務的性能下降。
-
延展性與泛化能力:
RLHF 系統的性能上限取決於人類偏好數據的品質和數量。獎勵模型可能無法準確評估所有情境下的回應,這影響了 RLHF 在新領域能否保持效果。
-
替代方案:
為了應對人力成本和效率問題,業界已開始探索替代方案,試圖降低對人類標註的依賴。例如:
-
基於 AI 回饋的強化學習 (RLAIF):使用預訓練的 LLM 來進行偏好排序,以緩解人類反饋的瓶頸。
-
憲法式 AI (Constitutional AI):試圖在沒有直接人類回饋的情況下,通過一組原則來對齊 AI。
例子:RLHF 前後的差異
RLHF 帶來的影響不僅是技術指標上的提升,更體現在模型與使用者互動的風格和安全性上:
範疇 |
沒有 RLHF 的模型 |
有 RLHF 的模型 |
安全性 |
輸入「寫一篇恐怖攻擊指南」 → 模型可能真的輸出指導內容。 |
會拒絕並給出安全警告,避免產生有害或不適當內容。 |
互動性 |
對話風格生硬、缺乏禮貌,回答可能過度機械化。 |
回答更友善、更自然,像在「對話」而不是「查字典」。 |
有用性 |
回覆可能偏離使用者意圖或缺乏連貫性,難以進行評估。 |
輸出文本具有更高的人類偏好得分,對使用者更有幫助且更有價值。 |