Day 10｜基於人類回饋的強化學習 (RLHF)：塑造下一代 AI 的關鍵技術

17th鐵人賽

JasonLee1211

2025-09-24 22:39:10

158 瀏覽

分享至

在完成預訓練與微調後，雖然模型已經具備語言能力並能應對特定任務，但仍然存在一個問題——它並不真正「理解」人類的價值與偏好。這時候，研究者引入了 RLHF（Reinforcement Learning with Human Feedback）。透過人類提供的評分與回饋，再用強化學習演算法調整模型，最終讓模型不只會說話，還能「符合人類期待地說話」。

基於人類回饋的強化學習 (RLHF)：塑造下一代 AI 的關鍵技術

在人工智慧（AI）領域，基於人類回饋的強化學習 (Reinforcement Learning from Human Feedback, RLHF) 是一種革命性的技術，它使大型語言模型（LLM）不僅能學會知識，更能依照人類的價值觀和偏好進行調整。RLHF 的核心目標是通過引入人類偏好來優化模型的行為和輸出，使其能夠更自然地與人類交互，並生成更符合人類期望的內容。

為什麼需要 RLHF？

大型語言模型的訓練通常包含以下兩個主要階段：

預訓練（Pre-training）：
LLM 在海量資料集上進行預訓練，使其獲得廣泛的能力，例如推理、常識問答和翻譯等。在此階段，模型主要學會了語言規律和基礎的知識面。
微調（Fine-tuning）：
接著，模型會針對特定下游任務進行微調，使其能夠處理多樣化的任務生成文本，從而獲得專業技能面。

但問題是：

儘管經過廣泛訓練，傳統的語言模型（如僅使用交叉熵等簡單損失函數建模的模型）仍然受到網路數據品質的影響。而且，傳統的文本生成評估指標（如 BLEU 和 ROUGE）無法闡述人類對於語言的偏好。

因此，模型可能仍產生不符合人類價值觀或主觀意見的回應，例如：

有害或不真實的內容（安全性問題）。
帶有偏見的輸出（倫理問題）。
風格生硬、缺乏禮貌的回覆（效用性問題）。

RLHF 的目的：

RLHF 透過結合人類的喜好、價值觀等因素來對一段話進行評分，這些評分資料將有助於 LLM 的學習。RLHF 的核心思想是讓模型學會**「人類喜歡的回答方式」，而不是只會模仿預訓練數據中已有的模式。這使得模型能夠與複雜的人類價值觀對齊**。

RLHF 的三階段流程

RLHF 是一項複雜的概念，涉及多個模型和不同的訓練階段。OpenAI 的 InstructGPT 及其前身 ChatGPT 的訓練過程即是 RLHF 應用的傑出成果。

RLHF 流程通常分解為以下三個主要步驟：

(1) 監督式微調 (Supervised Fine-tuning, SFT)

這是 RLHF 流程的第一階段。

目標：透過監督式學習，使模型能夠模仿訓練資料中的模式。
步驟：
1. 在網路上蒐集各種對話紀錄（包含 Input Pair 與 Output Pair）。
2. 人類標註者會挑選出（或寫出）期望的 Output Pair（即「理想答案」）。
3. 利用這些 Input Pair 與對應的期望 Output Pair，即可使用監督式學習對初始語言模型進行訓練。

(2) 訓練獎勵模型 (Reward Model, RM)

RM 的訓練是 RLHF 區別於舊範式的開端。

核心功能：RM 接收一系列文本（例如 Input Pair & Output Pair）並返回一個標量獎勵。這個數值代表人類的偏好，用來預測人類對不同回應的偏好程度。
步驟：
1. 將 Input Pair 匯入其他語言模型，產生諸多 Output Pair。
2. 人類標註者對這些輸出進行評分或偏好排序（即「好答案 vs 壞答案」的比較）。
3. 將 Input Pair & Output Pair 當作輸入，人類的評分或排序結果作為輸出，即可訓練獎勵模型。這種排名方式比直接給予分數更為穩健，因為它能建立更好的規範數據集。

(3) 強化學習（PPO 等演算法）

在第三階段，使用強化學習算法對語言模型進行微調優化。

目標：讓模型（策略 $\pi$）透過與獎勵模型互動來更新，生成越來越「討人類喜歡」的回覆。
演算法：近端策略優化 (Proximal Policy Optimization, PPO) 是 RLHF 中常用的策略梯度強化學習算法。
機制：
1. 將步驟一的結果 Supervised Policy 作為起始策略 $\pi_{\theta_0}$。
2. 策略 $\pi_{\theta}$（語言模型）根據輸入 $x$ 生成輸出 $a$ (文本)。
3. RM 給予輸出 $a$ 獎勵評分 $r(x, a)$。
4. PPO 算法使用此獎勵信號 $r(x, a)$ 和策略轉變約束來計算獎勵函數，並優化策略 $\pi_{\theta}$。
5. 策略轉變約束：通常設計為與初始策略 $\pi_{\theta_0}$ 之間的 KL 散度（Kullback–Leibler divergence），這項懲罰項用於限制新舊策略之間的差異，確保模型輸出合理連貫，防止策略更新過於激進。

RLHF 的關鍵價值

RLHF 使 LLM 能夠更好地理解和符合人類的期望，其核心價值主要圍繞著 AI 的對齊 (Alignment) 和安全性：

Align（對齊，Alignment）：
對齊是指確保 LLM 的行為符合人類價值觀和偏好。通常的對齊目標圍繞著三個核心標準，即有用性 (Helpfulness)、誠實性 (Honesty/Truthfulness) 和無害性 (Harmlessness)。RLHF 是實現這種對齊的關鍵技術。
安全性（Safety）/ 無害性（Harmlessness）：
透過人類回饋，RLHF 可以有效降低 AI 模型產生有害或不適當內容的風險。RLHF 旨在指導 AI 避免產生不想要的結果，幫助模型拒絕危險或有害的請求。
有用性（Helpfulness）：
RLHF 確保 AI 模型生成的回應對人類更有幫助、更具價值，讓回答更貼近人類需求，而不僅僅是冷冰冰的「正確答案」。有用性關注的是回應是否有效地解決了提示/問題。
禮貌與語氣（Politeness & Tone）：
RLHF 提升了 LLM 輸出的擬人化程度（human-likeness），使其能生成貌似更自然的對話回應，減少冒犯或不當輸出。

挑戰與爭議

儘管 RLHF 取得了顯著成果，但在實際應用和倫理層面仍面臨多重挑戰和爭議：

人類標註成本高：
RLHF 需要收集大量高品質的人類偏好數據，包括人工生成的文本和對模型輸出的偏好標籤。這是一個耗時且昂貴的過程，需要聘用兼職人員來生成高質量回答。
偏見（Bias）與價值觀單一化：
由於標註者（數據工人）的價值觀不同，訓練數據中可能存在潛在差異或偏見。此外，RLHF 有可能導致價值觀的強加和文化同質化。數據標註者可能傾向於迎合其（通常是西方或美國）雇主所期望的價值觀，導致模型傾向於某些立場。
對齊稅（Alignment Tax）：
RLHF 是一種現象，指 LLM 在對齊人類偏好的過程中，可能導致其遺忘在預訓練階段獲得的各種能力。實驗顯示，對齊稅表現為常識問答、閱讀理解和翻譯等 NLP 任務的性能下降。
延展性與泛化能力：
RLHF 系統的性能上限取決於人類偏好數據的品質和數量。獎勵模型可能無法準確評估所有情境下的回應，這影響了 RLHF 在新領域能否保持效果。
替代方案：
為了應對人力成本和效率問題，業界已開始探索替代方案，試圖降低對人類標註的依賴。例如：
- 基於 AI 回饋的強化學習 (RLAIF)：使用預訓練的 LLM 來進行偏好排序，以緩解人類反饋的瓶頸。
- 憲法式 AI (Constitutional AI)：試圖在沒有直接人類回饋的情況下，通過一組原則來對齊 AI。

例子：RLHF 前後的差異

RLHF 帶來的影響不僅是技術指標上的提升，更體現在模型與使用者互動的風格和安全性上：

範疇	沒有 RLHF 的模型	有 RLHF 的模型
安全性	輸入「寫一篇恐怖攻擊指南」 → 模型可能真的輸出指導內容。	會拒絕並給出安全警告，避免產生有害或不適當內容。
互動性	對話風格生硬、缺乏禮貌，回答可能過度機械化。	回答更友善、更自然，像在「對話」而不是「查字典」。
有用性	回覆可能偏離使用者意圖或缺乏連貫性，難以進行評估。	輸出文本具有更高的人類偏好得分，對使用者更有幫助且更有價值。