iT邦幫忙

2024 iThome 鐵人賽

DAY 20
0
AI/ ML & Data

30 Days of AI Research系列 第 21

[Day 20] Visual Instruction Tuning

  • 分享至 

  • xImage
  •  

Paper link | Note link | Code link | NeurIPS 2023

整體想法

這項研究展示了視覺指令調整的有效性。

他們引入了一個自動化的管道來生成語言-圖像指令跟隨數據,該數據用於訓練 LLaVA,一個能夠遵循人類意圖完成視覺任務的多模態模型。

摘要

LLaVA(大型語言與視覺助理)是一種端到端的多模態模型,旨在將視覺編碼器與大型語言模型(LLM)整合在一起。

這種結合使得模型能夠全面理解視覺和文本資訊。

背景

大型語言模型(LLMs)已經顯示出語言可以作為通用介面來支援多用途助手,各種任務指令都以文本形式明確表示,從而指導神經網絡助手在任務之間進行切換。

當LLMs與多模態的視覺與語言指令相連接時,它們進一步擴展了這一能力,使助手能夠無縫地解釋和解決涉及視覺和文本資訊的任務。

GPT-assisted Visual Instruction Data Generation

目前,多模態指令跟隨數據的可用性仍然有限。

為了解決這個問題,這項研究利用 ChatGPT/GPT-4 來收集這類數據,並使用廣泛可用的圖像對數據集。

給定一張圖片 https://ithelp.ithome.com.tw/upload/images/20240820/20152821hHsLMmzJEx.png 及其相關的標題 https://ithelp.ithome.com.tw/upload/images/20240820/20152821bLxWYq5Chb.png,可以生成一組問題 https://ithelp.ithome.com.tw/upload/images/20240820/20152821l8n6vG4EIm.png,目的是指導助手描述圖像內容。

將圖像-文本對轉換為指令跟隨格式的一種簡單方法如下:

人類: https://ithelp.ithome.com.tw/upload/images/20240820/20152821SJcQVcQ2vJ.png <STOP>
助手: https://ithelp.ithome.com.tw/upload/images/20240820/201528216gzfMO5M31.png <STOP>

然而,這種方法在指令和回應中缺乏多樣性和深入的推理。

為了解決這一限制,這項研究利用 GPT-4 或 ChatGPT 等僅接受文本輸入的語言模型的能力,生成更為複雜的指令跟隨數據,涉及視覺內容。

下表提供了一個示例來說明指令跟隨數據的生成過程。

image

方法

Architecture

以下是網絡架構圖:

  • Large Language Model (LLM): 用於處理和理解文本指令。
  • Vision Model: 用於處理和理解視覺資訊。
  • Fusion Layer: 將來自語言模型和視覺模型的輸出進行融合,以實現多模態理解。

這個架構的主要目標是有效地利用預訓練的大型語言模型(LLM)和視覺模型的優勢,以實現更精確和全面的多模態任務處理。

image

Training

他們使用Vicuna作為大型語言模型(LLM) https://ithelp.ithome.com.tw/upload/images/20240820/20152821ThQAfOENdd.png,並使用預訓練的CLIP視覺編碼器ViT-L/14處理輸入圖像 https://ithelp.ithome.com.tw/upload/images/20240820/20152821iOGdqfz1ej.png,生成視覺特徵 https://ithelp.ithome.com.tw/upload/images/20240820/20152821htgGFLmRXJ.png

一個線性層和可訓練的投影矩陣 https://ithelp.ithome.com.tw/upload/images/20240820/20152821vrzWWXFmJz.png 將這些特徵映射到詞嵌入空間,生成語言嵌入token https://ithelp.ithome.com.tw/upload/images/20240820/20152821tzhu3Dsy4o.png,其維度與LLM的詞嵌入相匹配:

https://ithelp.ithome.com.tw/upload/images/20240820/201528210d5CySh78M.png

對於每個圖像 https://ithelp.ithome.com.tw/upload/images/20240820/201528214bOPmMpA0L.png,他們生成多輪對話數據 https://ithelp.ithome.com.tw/upload/images/20240820/20152821vooGx5Puhw.png,其中 https://ithelp.ithome.com.tw/upload/images/20240820/20152821O91gz5dOF7.png 是總輪次。

這些數據被組織成一個序列,所有答案作為助理的回應。

https://ithelp.ithome.com.tw/upload/images/20240820/20152821N3DDov4iuW.png 輪的指令 https://ithelp.ithome.com.tw/upload/images/20240820/20152821GyFKA4WOzH.png 定義為:

https://ithelp.ithome.com.tw/upload/images/20240820/20152821FoFNjGKXqc.png

這樣生成了統一的多模態指令跟隨序列格式。

接著,他們對LLM進行指令微調,使用其原始的自回歸目標進行預測 token 的訓練。

對於長度為 https://ithelp.ithome.com.tw/upload/images/20240820/20152821rY0jmuLgVm.png 的序列,目標答案 https://ithelp.ithome.com.tw/upload/images/20240820/201528211GuRwE6kTE.png 的機率計算為:

https://ithelp.ithome.com.tw/upload/images/20240820/20152821iOu1qdmuQ2.png

其中 https://ithelp.ithome.com.tw/upload/images/20240820/20152821VjDxmb7PDE.png 代表可訓練的參數,https://ithelp.ithome.com.tw/upload/images/20240820/20152821A7fNlEoSAR.png 表示在當前預測 token https://ithelp.ithome.com.tw/upload/images/20240820/20152821Tn134aZtgg.png 之前的所有輪次的指令 token,https://ithelp.ithome.com.tw/upload/images/20240820/20152821bczsBjV1th.png 代表所有先前輪次的答案 token。

對於LLaVA模型的訓練,他們考慮了兩階段的指令微調過程:

  1. 特徵對齊的預訓練
  2. 終端到終端的微調

實驗

Multimodal Chatbot

以下是原始GPT-4論文中的示例。

image

他們還通過變化訓練數據集來評估不同類型指令跟隨數據的有效性。

image

ScienceQA

以下是ScienceQA的結果,其中包含21,000個多模態多選題問題。

image


上一篇
[Day 19] Compressing and Debiasing Vision-Language Pre-Trained Models for Visual Question Answering
下一篇
[Day 21] ILLUME: Rationalizing Vision-Language Models through Human Interactions
系列文
30 Days of AI Research31
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言