Day 28 ：Transformer Reinforcement Learning

2025 iThome 鐵人賽

DAY 28

生成式 AI

VLM系列第 28 篇

17th鐵人賽

皮二仔

2025-10-12 23:09:04

94 瀏覽

分享至

在視覺語言模型（Vision-Language Model, VLM）的微調（fine-tuning）過程中，「Transformer 強化學習」（Transformer Reinforcement Learning, TRL）是一種先進的訓練方法，旨在讓模型學習產生更符合人類期望或特定任務目標的輸出。

什麼是TRL：

TRL 是一種專門為微調Transformer模型設計的框架，特別是用於優化模型生成符合人類偏好或特定任務需求的輸出。它通常用於讓模型生成的內容更安全、更有用或更符合特定目標，例如提高回答的質量、減少有害輸出或遵循複雜指令。
在VLM的微調中，TRL 通過強化學習技術來調整模型的行為，基於某種獎勵函數（reward function）來評估模型的輸出，並指導模型朝著更高獎勵的方向改進。

強化學習是一種機器學習的訓練方式，其核心概念包含：

代理人 (Agent)：也就是我們的 VLM 模型。
環境 (Environment)：模型互動的場景，例如一個問答系統或一個需要根據指令操作的模擬器。
行動 (Action)：模型根據目前的狀態（例如輸入的圖片和問題）所產生的回應。
獎勵 (Reward)：一個評分機制，用來衡量模型行動的好壞。如果模型的回答很有幫助、準確或安全，就給予正向獎勵；反之則給予負向獎勵。

模型的目標是學習一套策略（Policy），使其在各種情況下所採取的行動，能獲得最大的長期累積獎勵。
「Transformer 強化學習」就是利用 Transformer 架構的強大序列處理能力，作為強化學習中「代理人」的大腦，來學習最佳的決策策略。

在 VLM 微調中，最常見的強化學習應用是從人類回饋中學習強化學習（Reinforcement Learning from Human Feedback, RLHF）。這個過程通常包含以下步驟：

監督式微調 (Supervised Fine-Tuning, SFT)：
首先，使用高品質的「圖像＋問題＋優質答案」數據集對 VLM 進行初步微調。這讓模型先具備了執行特定任務的基本能力。
訓練獎勵模型 (Reward Model)：
接下來，收集人類偏好數據。作法是讓模型針對同一個輸入（例如同一張圖和同一個問題）產生多個不同的答案，然後由人類標註者評選出哪個答案比較好、哪個比較差。利用這些偏好數據，訓練一個獨立的「獎勵模型」。這個模型學會了模擬人類的判斷標準，能夠為任何一個模型產生的答案打分數（給予獎勵）。
透過強化學習進行微調：
這一步就是 TRL 的核心。讓 SFT 微調過的 VLM 針對各種輸入產生答案（行動），然後用訓練好的獎勵模型來為這些答案評分（獲得獎勵）。接著，使用強化學習算法（例如 PPO - Proximal Policy Optimization）來更新 VLM 的權重，引導它產生更能獲得高獎勵（也就是更符合人類偏好）的答案。

TRL 在 VLM 微調中的優勢與應用場景：

提升輸出品質與對齊人類價值觀：
傳統監督式微調很難定義什麼是「最好」的答案。透過 RLHF，模型可以學到更細微的人類偏好，例如讓回答更「有幫助」、「無害」且「誠實」，減少產生幻覺（hallucination）或有偏見的內容。
改善多步驟決策能力：
對於需要一系列推理或操作才能完成的複雜任務（例如，VLM 被當作一個能與模擬環境互動的機器人代理），強化學習可以透過任務成功與否的最終獎勵，來優化整個決策過程。
提升特定任務的準確性：
在某些任務中（如物體偵測），可以設計特定的獎勵函數來提升模型的表現。例如，如果模型輸出的物件邊界框（bounding box）與標準答案越接近，給予的獎勵就越高。

TRL微調的簡單例子

場景：圖像描述生成
假設有一個VLM（如CLIP-ViT搭配語言模型），它可以根據圖像生成描述，但初始生成的描述可能不夠精確或不符合人類期望。例如，給一張狗狗在公園玩耍的圖片，模型可能生成：
「一隻動物在草地上。」（太籠統）
「狗在跑。」（正確但不夠豐富）
我們希望微調模型，讓它生成更詳細、符合人類偏好的描述，例如：「一隻金毛犬在公園的草地上快樂地追逐飛盤。」

初始模型輸出：
輸入：一張圖片（金毛犬在公園玩飛盤）。
VLM生成描述：「狗在跑。」
獎勵模型評估：
使用一個獎勵模型（可能是另一個經過訓練的模型或規則集合）來評估輸出質量。

獎勵模型根據以下標準給分：
- 是否具體（提到「金毛犬」和「飛盤」比「狗」更高分）。
- 是否符合圖像內容（描述是否與圖片匹配）。
- 語句是否自然流暢。
假設「狗在跑」得到低分（0.3），因為它太簡略；「一隻金毛犬在公園的草地上快樂地追逐飛盤」得到高分（0.9）。

強化學習優化：
使用**PPO（Proximal Policy Optimization）**算法，調整VLM的參數。
PPO鼓勵模型生成更高獎勵的輸出，同時避免過度偏離原始行為（保持穩定性）。
模型會學習傾向於生成更詳細、符合圖像的描述。
迭代過程：
重複生成描述 → 獎勵評估 → 參數調整。
經過多次迭代，模型學會生成更接近高獎勵的描述，例如：
「一隻金毛犬在公園追逐飛盤。」（獎勵0.7）
最終收斂到：「一隻金毛犬在公園的草地上快樂地追逐飛盤。」（獎勵0.9）
人類反饋（RLHF）：
如果使用RLHF，人類評估者可能會比較模型的多個輸出，標記哪個描述更好（例如，選擇更詳細的描述）。
這些反饋數據用於進一步訓練獎勵模型，幫助它更精確地評估輸出。