在視覺語言模型(Vision-Language Model, VLM)的微調(fine-tuning)過程中,「Transformer 強化學習」(Transformer Reinforcement Learning, TRL)是一種先進的訓練方法,旨在讓模型學習產生更符合人類期望或特定任務目標的輸出。
什麼是TRL:
強化學習是一種機器學習的訓練方式,其核心概念包含:
模型的目標是學習一套策略(Policy),使其在各種情況下所採取的行動,能獲得最大的長期累積獎勵。
「Transformer 強化學習」就是利用 Transformer 架構的強大序列處理能力,作為強化學習中「代理人」的大腦,來學習最佳的決策策略。
在 VLM 微調中,最常見的強化學習應用是從人類回饋中學習強化學習(Reinforcement Learning from Human Feedback, RLHF)。這個過程通常包含以下步驟:
TRL 在 VLM 微調中的優勢與應用場景:
場景:圖像描述生成
假設有一個VLM(如CLIP-ViT搭配語言模型),它可以根據圖像生成描述,但初始生成的描述可能不夠精確或不符合人類期望。例如,給一張狗狗在公園玩耍的圖片,模型可能生成:
「一隻動物在草地上。」(太籠統)
「狗在跑。」(正確但不夠豐富)
我們希望微調模型,讓它生成更詳細、符合人類偏好的描述,例如:「一隻金毛犬在公園的草地上快樂地追逐飛盤。」