iT邦幫忙

2024 iThome 鐵人賽

DAY 21
0
AI/ ML & Data

30 Days of AI Research系列 第 22

[Day 21] ILLUME: Rationalizing Vision-Language Models through Human Interactions

  • 分享至 

  • xImage
  •  

Paper link | Code link | ICML 2023

整體想法

這項研究採用了人機互動的解釋方法來處理多模態 Transformers 模型。

摘要

視覺-語言模型 (VLM) 很少與使用者對特定答案的推理相吻合。

為了改善這種對齊並強化常識性推理,這項研究提出了一種基於人機互動的調整模式,使用由機器生成的數據進行調整。

背景

InstructGPT 展示了使用人類在迴路中的調整語言模型可以產生比傳統訓練的較大模型更受人類偏好的輸出。

類似地,他們使用人類評論者對自生成樣本的少量互動反饋來指導微調過程。

此外,他們將這種方法應用於多模態應用,促進了語言模型 (LM) 和視覺-語言模型 (VLM) 之間能力的轉移。

方法

Problem Statement

他們將任務定義為開放式文本生成。

VQA 元組 https://ithelp.ithome.com.tw/upload/images/20240821/20152821Hnobp7aWG7.png 包含圖像 $i$ 和一對對應的文本序列,分別表示問題 https://ithelp.ithome.com.tw/upload/images/20240821/20152821e6POTzlkwo.png 和答案 https://ithelp.ithome.com.tw/upload/images/20240821/20152821mKdirLSyzy.png

這項研究使用模型來執行函數 https://ithelp.ithome.com.tw/upload/images/20240821/20152821iUt5VOAp3j.png,其中輸出 https://ithelp.ithome.com.tw/upload/images/20240821/20152821PGszJrkzQk.png 是文本解釋。

Self-talk Prompting

他們的方法通過自我對話的方式建立一個自然語言常識推理的基線來進行評估。

接著,選擇合適的語言模型候選者。

澄清和上下文資訊都被提示給模型,以預測最終答案。

ILLUME: Tuning through Machine Interaction

image

在每次迭代中,他們使用前一輪調整過的模型,從訓練數據中抽取解釋。

人類通過標記合適的解釋,向模型提供最小的反饋。

抽樣

這種方法結合了 top-k 和溫度抽樣。

首先,他們使用 top-k 抽樣來將生成的序列限制在最有可能的 token 內。

為了過濾 token,他們應用溫度抽樣

https://ithelp.ithome.com.tw/upload/images/20240821/20152821GDfyo5NVuX.png

其中 https://ithelp.ithome.com.tw/upload/images/20240821/20152821rQrtkNc9wq.png 是輸出機率 https://ithelp.ithome.com.tw/upload/images/20240821/20152821vyS0LliiD0.png 所對應的 token https://ithelp.ithome.com.tw/upload/images/20240821/20152821jYyDuz2vCB.png 的 logit。

人類反饋

他們識別並強化那些符合人類意圖的生成內容。

可以通過使用任務特定的評量標準,將生成的候選解釋與現有的由人類生成的真實解釋進行比較來模擬人類反饋。

在他們的方法中,使用 ROUGE-L 分數進行評估。

持續學習

他們同時訓練 VQA 和解釋生成任務,其訓練損失為

https://ithelp.ithome.com.tw/upload/images/20240821/201528217mvLb50Rf9.png

其中 https://ithelp.ithome.com.tw/upload/images/20240821/20152821GWW5VB5W8N.png 是用來平衡樣本數不均衡的參數,https://ithelp.ithome.com.tw/upload/images/20240821/201528211jcS5JZc5X.png 代表集合 https://ithelp.ithome.com.tw/upload/images/20240821/20152821E6YuBNqGhL.png 中的元素數量。

https://ithelp.ithome.com.tw/upload/images/20240821/201528218PYPsQJ7pi.pnghttps://ithelp.ithome.com.tw/upload/images/20240821/20152821OykjuEP64V.png 分別是針對答案和解釋的下一個 token 預測的 loss。

實驗

這項研究考慮了三種視覺語言模型(VLM):

  1. MAGMA
  2. BLIP
  3. OFA

他們使用了六個不同的常識推理基準:

  1. CSQA
  2. COPA
  3. Mc-Taco
  4. PIQA
  5. SocialQA
  6. WinoGrande

並使用了三個評估指標:BLEU-4、ROUGE-L 和 CIDEr。

下圖顯示了語言模型在自我對話中的表現。

image

下圖展示了在 VQA-X 訓練集上生成的解釋。

image


上一篇
[Day 20] Visual Instruction Tuning
下一篇
[Day 22] PaLM-E: An Embodied Multimodal Language Model
系列文
30 Days of AI Research31
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言