iT邦幫忙

2024 iThome 鐵人賽

DAY 19
0
AI/ ML & Data

30 Days of AI Research系列 第 20

[Day 19] Compressing and Debiasing Vision-Language Pre-Trained Models for Visual Question Answering

  • 分享至 

  • xImage
  •  

Paper link | Code link | EMNLP 2023

整體想法

這項研究首次聯合探討了視覺語言預訓練模型(VLP)在視覺問答(VQA)任務中的壓縮和去偏差問題。

摘要

儘管視覺語言預訓練模型(VLPs)在視覺問答(VQA)任務上表現強勁,但它們面臨兩個問題:

  1. 依賴數據集中的語言偏見,導致在分布外(OOD)數據上泛化能力較差。
  2. 記憶體和計算效率低下。

本文探討了通過系統的訓練和壓縮管道來同時壓縮去偏差VLPs 的可能性,旨在識別稀疏且穩健的子網路。

背景

OOD problems

當視覺語言預訓練模型(VLPs)遇到分布與訓練集不同的分布外(OOD)測試數據集時,性能會顯著下降。

Dataset-bias problem

視覺問答(VQA)中的數據集偏差問題已被廣泛研究,許多去偏差方法已應用於傳統的小規模模型。

這些方法主要通過基於訓練樣本的偏差程度來正則化損失,以解決這一問題。

方法

VLP Architecture and Subnetworks

本研究以 LXMERT 為例。

LXMERT(Learning Cross-Modality Encoder Representations from Transformers)是一種學習視覺與語言連接的框架。

要被修剪的參數如下:

https://ithelp.ithome.com.tw/upload/images/20240819/20152821XqYnHiOzdt.png

其中,https://ithelp.ithome.com.tw/upload/images/20240819/20152821ofzJJFgdEr.pnghttps://ithelp.ithome.com.tw/upload/images/20240819/20152821mOzZF7BUIG.pnghttps://ithelp.ithome.com.tw/upload/images/20240819/20152821eDBrEbw3cF.png 分別是嵌入層、視覺全連接層和池化層的權重。

https://ithelp.ithome.com.tw/upload/images/20240819/201528211SF3Uk5fZR.pnghttps://ithelp.ithome.com.tw/upload/images/20240819/20152821sF38av7xct.pnghttps://ithelp.ithome.com.tw/upload/images/20240819/20152821wNLUNURaYt.png 則是語言編碼器、對象關係編碼器和跨模態編碼器的參數。

Pruning Methods

他們探索了兩種代表性的修剪技術:

Magnitude-based Pruning

此方法通過參數的絕對值來估計其重要性,移除那些被認為不太重要的參數。

Mask Training

這種方法通過優化二進制修剪掩碼(https://ithelp.ithome.com.tw/upload/images/20240819/20152821e1FG5FZ3Bv.png)來直接達到特定目標。

Debiasing Methods

一個捕捉語言偏差的偏倚模型被用來評估訓練樣本的偏差程度。

主模型的訓練損失隨後根據這些偏差進行調整以抵消該偏差。

二元交叉熵(BCE)

計算主模型預測與每個真實標籤的軟目標分數之間的交叉熵。

Learned-Mixin +H(LMH)

在訓練過程中引入一個偏倚模型來學習並調整偏差。

RUBi

使用類似於 LMH 的策略來正則化主模型的機率,並使用標準交叉熵作為訓練損失。

LPF

測量偏差程度並相應地正則化主模型的損失。

Problem Formulation

目標是找到一個滿足目標稀疏度水平 https://ithelp.ithome.com.tw/upload/images/20240819/20152821HtQtRLIfnA.png 並最大化 OOD 性能的子網路 https://ithelp.ithome.com.tw/upload/images/20240819/201528214bbLDVoins.png

https://ithelp.ithome.com.tw/upload/images/20240819/2015282197TzyXlRnV.png

其中 https://ithelp.ithome.com.tw/upload/images/20240819/20152821HcyLCpGYin.png 表示 OOD 評估,https://ithelp.ithome.com.tw/upload/images/20240819/20152821x8fG0l7HK6.pnghttps://ithelp.ithome.com.tw/upload/images/20240819/20152821b7cL3aM23G.png 範數,https://ithelp.ithome.com.tw/upload/images/20240819/20152821CglUeKAlm9.pnghttps://ithelp.ithome.com.tw/upload/images/20240819/20152821Qb2qaJ4AJa.png 中的參數總數。

Training and Compression Pipeline

一個典型的訓練和壓縮管線包括三個階段:

階段 1:完整模型的微調

預訓練的 LXMERT https://ithelp.ithome.com.tw/upload/images/20240819/20152821sdVi9OdncP.png 進行微調,使用損失函數 https://ithelp.ithome.com.tw/upload/images/20240819/20152821CDuOYGkjbt.png 來生成 https://ithelp.ithome.com.tw/upload/images/20240819/20152821R3xtx4TWIm.png

階段 2:模型壓縮

微調後的 LXMERT https://ithelp.ithome.com.tw/upload/images/20240819/20152821nLOoJGm4R7.png 被壓縮,生成的子網路將為 https://ithelp.ithome.com.tw/upload/images/20240819/20152821mSplAx2rqd.png,其中 https://ithelp.ithome.com.tw/upload/images/20240819/20152821awD3WZzB51.png

階段 3:進一步微調(可選)

子網路 https://ithelp.ithome.com.tw/upload/images/20240819/20152821LWp7ZQb5Ir.png 進一步使用損失函數 https://ithelp.ithome.com.tw/upload/images/20240819/20152821eWEw5bxpSi.png 進行微調,結果將為 https://ithelp.ithome.com.tw/upload/images/20240819/20152821zMkq3U0Avi.png

實驗

下面的圖顯示了從 BCE 微調的 LXMERT 子網路(左)和從 LMH 微調的 LXMERT 子網路(右)在 VQA-CP v2 上的結果。

image

下面的圖顯示了使用各種去偏差方法微調的 LXMERT 子網路在 VQA-CP v2 數據集上的結果。

image


上一篇
[Day 18] Evaluating Object Hallucination in Large Vision-Language Models
下一篇
[Day 20] Visual Instruction Tuning
系列文
30 Days of AI Research31
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言