iT邦幫忙

2025 iThome 鐵人賽

DAY 28
0
生成式 AI

VLM系列 第 28

Day 28 :Transformer Reinforcement Learning

  • 分享至 

  • xImage
  •  

在視覺語言模型(Vision-Language Model, VLM)的微調(fine-tuning)過程中,「Transformer 強化學習」(Transformer Reinforcement Learning, TRL)是一種先進的訓練方法,旨在讓模型學習產生更符合人類期望或特定任務目標的輸出。

什麼是TRL:

  • TRL 是一種專門為微調Transformer模型設計的框架,特別是用於優化模型生成符合人類偏好或特定任務需求的輸出。它通常用於讓模型生成的內容更安全、更有用或更符合特定目標,例如提高回答的質量、減少有害輸出或遵循複雜指令。
  • 在VLM的微調中,TRL 通過強化學習技術來調整模型的行為,基於某種獎勵函數(reward function)來評估模型的輸出,並指導模型朝著更高獎勵的方向改進。

強化學習是一種機器學習的訓練方式,其核心概念包含:

  • 代理人 (Agent):也就是我們的 VLM 模型。
  • 環境 (Environment):模型互動的場景,例如一個問答系統或一個需要根據指令操作的模擬器。
  • 行動 (Action):模型根據目前的狀態(例如輸入的圖片和問題)所產生的回應。
  • 獎勵 (Reward):一個評分機制,用來衡量模型行動的好壞。如果模型的回答很有幫助、準確或安全,就給予正向獎勵;反之則給予負向獎勵。

模型的目標是學習一套策略(Policy),使其在各種情況下所採取的行動,能獲得最大的長期累積獎勵。
「Transformer 強化學習」就是利用 Transformer 架構的強大序列處理能力,作為強化學習中「代理人」的大腦,來學習最佳的決策策略。

在 VLM 微調中,最常見的強化學習應用是從人類回饋中學習強化學習(Reinforcement Learning from Human Feedback, RLHF)。這個過程通常包含以下步驟:

  1. 監督式微調 (Supervised Fine-Tuning, SFT):
    首先,使用高品質的「圖像+問題+優質答案」數據集對 VLM 進行初步微調。這讓模型先具備了執行特定任務的基本能力。
  2. 訓練獎勵模型 (Reward Model):
    接下來,收集人類偏好數據。作法是讓模型針對同一個輸入(例如同一張圖和同一個問題)產生多個不同的答案,然後由人類標註者評選出哪個答案比較好、哪個比較差。利用這些偏好數據,訓練一個獨立的「獎勵模型」。這個模型學會了模擬人類的判斷標準,能夠為任何一個模型產生的答案打分數(給予獎勵)。
  3. 透過強化學習進行微調:
    這一步就是 TRL 的核心。讓 SFT 微調過的 VLM 針對各種輸入產生答案(行動),然後用訓練好的獎勵模型來為這些答案評分(獲得獎勵)。接著,使用強化學習算法(例如 PPO - Proximal Policy Optimization)來更新 VLM 的權重,引導它產生更能獲得高獎勵(也就是更符合人類偏好)的答案。

TRL 在 VLM 微調中的優勢與應用場景:

  • 提升輸出品質與對齊人類價值觀:
    傳統監督式微調很難定義什麼是「最好」的答案。透過 RLHF,模型可以學到更細微的人類偏好,例如讓回答更「有幫助」、「無害」且「誠實」,減少產生幻覺(hallucination)或有偏見的內容。
  • 改善多步驟決策能力:
    對於需要一系列推理或操作才能完成的複雜任務(例如,VLM 被當作一個能與模擬環境互動的機器人代理),強化學習可以透過任務成功與否的最終獎勵,來優化整個決策過程。
  • 提升特定任務的準確性:
    在某些任務中(如物體偵測),可以設計特定的獎勵函數來提升模型的表現。例如,如果模型輸出的物件邊界框(bounding box)與標準答案越接近,給予的獎勵就越高。

TRL微調的簡單例子

場景:圖像描述生成
假設有一個VLM(如CLIP-ViT搭配語言模型),它可以根據圖像生成描述,但初始生成的描述可能不夠精確或不符合人類期望。例如,給一張狗狗在公園玩耍的圖片,模型可能生成:
「一隻動物在草地上。」(太籠統)
「狗在跑。」(正確但不夠豐富)
我們希望微調模型,讓它生成更詳細、符合人類偏好的描述,例如:「一隻金毛犬在公園的草地上快樂地追逐飛盤。」

  1. 初始模型輸出:
    輸入:一張圖片(金毛犬在公園玩飛盤)。
    VLM生成描述:「狗在跑。」
  2. 獎勵模型評估:
    使用一個獎勵模型(可能是另一個經過訓練的模型或規則集合)來評估輸出質量。
  • 獎勵模型根據以下標準給分:
    • 是否具體(提到「金毛犬」和「飛盤」比「狗」更高分)。
    • 是否符合圖像內容(描述是否與圖片匹配)。
    • 語句是否自然流暢。
  • 假設「狗在跑」得到低分(0.3),因為它太簡略;「一隻金毛犬在公園的草地上快樂地追逐飛盤」得到高分(0.9)。
  1. 強化學習優化:
    使用**PPO(Proximal Policy Optimization)**算法,調整VLM的參數。
    PPO鼓勵模型生成更高獎勵的輸出,同時避免過度偏離原始行為(保持穩定性)。
    模型會學習傾向於生成更詳細、符合圖像的描述。
  2. 迭代過程:
    重複生成描述 → 獎勵評估 → 參數調整。
    經過多次迭代,模型學會生成更接近高獎勵的描述,例如:
    「一隻金毛犬在公園追逐飛盤。」(獎勵0.7)
    最終收斂到:「一隻金毛犬在公園的草地上快樂地追逐飛盤。」(獎勵0.9)
  3. 人類反饋(RLHF):
    如果使用RLHF,人類評估者可能會比較模型的多個輸出,標記哪個描述更好(例如,選擇更詳細的描述)。
    這些反饋數據用於進一步訓練獎勵模型,幫助它更精確地評估輸出。

上一篇
Day 27 :OpenVLM Leaderboard
系列文
VLM28
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言