iT邦幫忙

2024 iThome 鐵人賽

DAY 4
0
AI/ ML & Data

30 Days of AI Research系列 第 4

[Day 4] Fine-grained Late-interaction Multi-modal Retrieval (FLMR)

  • 分享至 

  • xImage
  •  

Paper link | Note link | Code link | NeurIPS 2023

Paper title: Fine-grained Late-interaction Multi-modal Retrieval for Retrieval Augmented Visual Question Answering

整體想法

這項研究針對知識基礎視覺問答中的兩個主要限制進行探討:

  1. 從影像到文本轉換衍生的影像表示可能不完整且不準確。
  2. 僅依賴一維嵌入來計算相關性分數缺乏敏感度。

摘要

知識基礎視覺問答(KB-VQA)的任務利用外部知識來回答基於視覺內容的問題。

一種被稱為檢索增強視覺問答(RA-VQA)的框架能有效地解決這一任務。

本研究旨在解決 RA-VQA retriever 中的兩個限制:

  1. 通過影像到文本轉換獲得的影像表示可能不完整且不準確。
  2. 僅使用一維嵌入來計算相關性分數缺乏敏感度。

背景

知識基礎視覺問答(KB-VQA)旨在讀取影像並回答與影像內容相關的問題。

如何才能正確回答問題?

這取決於能夠檢索相關資訊並根據檢索到的知識生成答案的能力。

一種名為檢索增強視覺問答(RA-VQA)的框架專門為此任務而設計。

整體 RA-VQA 的運行過程:

  1. 從外部知識中檢索與影像和問題相關的https://ithelp.ithome.com.tw/upload/images/20240804/20152821xd3NOEdyAU.png篇文件。
  2. 使用大型語言模型(LLM)根據這些相關段落生成答案。

相關研究: RA-VQA

image

一個共同訓練的知識檢索和答案生成框架:

  1. 使用視覺算法將視覺資訊轉換為語言。
  2. Retriever 從知識庫中檢索文檔。
  3. 使用 RA-VQA 損失函數訓練 retriever https://ithelp.ithome.com.tw/upload/images/20240804/201528219I6if6GTGG.png 和 generator https://ithelp.ithome.com.tw/upload/images/20240804/20152821W6TIQMGnIt.png
  4. 模型將選擇具有最高聯合概率的答案 https://ithelp.ithome.com.tw/upload/images/20240804/20152821OIhJFJCAj1.png

方法

這項研究討論了 RA-VQA retriever 中的兩個主要限制:

  1. 通過影像到文本轉換對影像表示的理解不完全。
  2. 僅使用單一嵌入來計算查詢和文檔之間的相關性分數可能會導致資訊丟失。

本研究提出了一種名為 細粒度後互動多模態檢索(FLMR) 的方法來解決這兩個限制:

  1. 為了更好地理解影像表示,本研究使用大型視覺模型通過影像到文本轉換來對齊影像表示。
  2. 本研究不再使用單一嵌入,而是使用多維表示來以細粒度方式捕捉相關性分數。

image

Knowledge retrieval

這個框架包含兩個 encoder:視覺模型 https://ithelp.ithome.com.tw/upload/images/20240804/20152821pemZkDSsxy.png 和語言模型 https://ithelp.ithome.com.tw/upload/images/20240804/20152821LCVfuecLP3.png

Visual feature

本研究使用兩種類型的視覺特徵:

  1. 基於文本的視覺標題。
  2. 來自大型視覺模型的特徵表示。

對於第二種特徵來源,本研究使用 VinVL 來定位 https://ithelp.ithome.com.tw/upload/images/20240804/20152821ZM86pDboal.png (Region-of-Interest)邊界框。

通過視覺模型 https://ithelp.ithome.com.tw/upload/images/20240804/20152821Ry1LEOKzh8.png,他們從影像 https://ithelp.ithome.com.tw/upload/images/20240804/20152821JQIkbobaIE.png 中獲得一個全局影像潛在特徵 https://ithelp.ithome.com.tw/upload/images/20240804/20152821CsXTJSqKAQ.png

此外,他們還獲得基於 ROI 的潛在特徵 https://ithelp.ithome.com.tw/upload/images/20240804/20152821d85N9qoAp1.png

Token-Level Embeddings

使用多維嵌入來提高檢索效果。

來自文本和視覺數據的 token-level 嵌入被串接以增強性能。

為了對齊不同模態的特徵,他們訓練了一個映射網路 https://ithelp.ithome.com.tw/upload/images/20240804/20152821jBIR5GFzQP.png。它學習將來自 https://ithelp.ithome.com.tw/upload/images/20240804/20152821cvJKuF7GIJ.png 的視覺特徵投影到語言模型 https://ithelp.ithome.com.tw/upload/images/20240804/20152821hJLMyeOEV8.png 的潛在空間中。

最終的查詢嵌入 https://ithelp.ithome.com.tw/upload/images/20240804/20152821qCntmwD9mL.png 為:

https://ithelp.ithome.com.tw/upload/images/20240804/20152821HKe7aKNaxV.png

其中 https://ithelp.ithome.com.tw/upload/images/20240804/20152821ijExo7qrNW.pnghttps://ithelp.ithome.com.tw/upload/images/20240804/20152821Rj4XgblQex.png是問題 https://ithelp.ithome.com.tw/upload/images/20240804/201528213iFG3f7XlW.png 的長度。

Multi-Modal Late Interaction

本研究計算 question-image pair https://ithelp.ithome.com.tw/upload/images/20240804/20152821O3psRTGgsL.png 和文檔 https://ithelp.ithome.com.tw/upload/images/20240804/20152821cN6GbyCcFk.png 之間的相關性分數:

https://ithelp.ithome.com.tw/upload/images/20240804/20152821RCWqtOVS9A.png

其中 https://ithelp.ithome.com.tw/upload/images/20240804/201528216N9vXnqZgb.png 是來自知識庫的嵌入,https://ithelp.ithome.com.tw/upload/images/20240804/201528214kJ0zrXVmB.png 是文檔 https://ithelp.ithome.com.tw/upload/images/20240804/20152821QWA0R5O0lf.png 的長度。

Answer generator

在本研究中,answer generator https://ithelp.ithome.com.tw/upload/images/20240804/20152821mQJ0k03qjU.png 具有參數 https://ithelp.ithome.com.tw/upload/images/20240804/20152821KubeRS4Eu3.png,將根據檢索和答案生成的聯合概率從最佳候選中生成答案。

https://ithelp.ithome.com.tw/upload/images/20240804/20152821GzrhWST8sH.png

其中 https://ithelp.ithome.com.tw/upload/images/20240804/20152821HxDOzRpZ2l.pnghttps://ithelp.ithome.com.tw/upload/images/20240804/20152821uWxcbhxRev.png, https://ithelp.ithome.com.tw/upload/images/20240804/20152821dEV8xxGEo2.pnghttps://ithelp.ithome.com.tw/upload/images/20240804/20152821ezf8OA9nm3.png 的模型參數。

https://ithelp.ithome.com.tw/upload/images/20240804/20152821go0p8M07Ja.png

Training loss

對於 retriever,本研究使用對比損失 https://ithelp.ithome.com.tw/upload/images/20240804/20152821dze3h8nDiM.png

https://ithelp.ithome.com.tw/upload/images/20240804/20152821EpOckI2kM7.png

其中 https://ithelp.ithome.com.tw/upload/images/20240804/2015282106oikVfhh0.png 被認為是對於 https://ithelp.ithome.com.tw/upload/images/20240804/20152821fi84pmOXOZ.png 的負例。

對於 answer generator,他們使用交叉熵損失來評估生成的序列:

https://ithelp.ithome.com.tw/upload/images/20240804/20152821b2GcxSa054.png

其中 https://ithelp.ithome.com.tw/upload/images/20240804/20152821TWTeKQiRCn.png 是整個數據集,https://ithelp.ithome.com.tw/upload/images/20240804/20152821JN8WATGdAE.png 是人類回答的集合,而 https://ithelp.ithome.com.tw/upload/images/20240804/20152821IEOEIFZm4b.png 是在文檔 https://ithelp.ithome.com.tw/upload/images/20240804/201528219bRUqwm8AG.png 中最常出現的字符串。

實驗

Backbone model:

以下是模型在視覺問答數據集 OK-VQA 上的性能:

image

GoogleSearch(GS) 和維基百科上的檢索性能:

image

比較一些模型變體的案例研究:

image


上一篇
[Day 3] Retrieval-Augmented Multimodal Language Modeling
下一篇
[Day 5] Recommender Systems with Generative Retrieval
系列文
30 Days of AI Research31
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言