iT邦幫忙

2025 iThome 鐵人賽

DAY 3
0
生成式 AI

VLM系列 第 3

Day 3:VLM架構及如何訓練

  • 分享至 

  • xImage
  •  

VLM架構

VLM 的核心在於其具備將圖像轉換為 LLM 可理解的格式的能力,大部份的VLM運作包括三個主要組件:

  • 大型語言模型 (LLM):這是 VLM 的基礎,負責文本處理和最終的文本輸出。
  • 視覺編碼器 (Vision Encoder):視覺編碼器的作用是將圖像轉換為 LLM 可處理的格式。它將圖像轉換成「特徵向量 (feature vector)」,這些特徵向量是圖像內容的結構化表示。
  • 投影器 (Projector):將視覺編碼器的輸出轉換成 LLM 可以理解的形式,通常解釋為圖像標記,也可說是將圖像嵌入映射到基於令牌的格式,這表示將產生圖像令牌 (image tokens),並與 LLM 使用的文本令牌表示會對齊。

圖像令牌和文本令牌同時被送入大型語言模型,模型使用其注意力機制將它們一起處理,故無論其來源是文本還是圖像,最終會生成一個文本回應,可以是字幕或圖像解釋,或是需要同時回覆圖像和文本內容的問題答案。

https://ithelp.ithome.com.tw/upload/images/20250917/20178920DuWIQ5ruTU.png
圖片來源:NVIDIA

VLM如何訓練

VLM的訓練策略涉及對齊和融合來自視覺和語言編碼器的信息,以便可以學習將圖像與文本相關聯。有幾種訓練方法:

  • 對比學習 (Contrastive learning):VLM 在圖像-文本對的數據集上進行訓練,並學習最小化匹配對嵌入之間的距離,並最大化不匹配對的距離。是較常用的訓練方法,CLIP即為這一類VLM。
  • 遮罩 (Masking):VLM會學習預測並重建文字或圖像的隨機遮擋部分,FLAVA即為此類。
  • 生成模型訓練 (Generative-based VLMs):VLM 的生成模型訓練需要學習產生新資料,從輸入文字產生影像,或是從輸入影像產生文字。Stable Diffusion為此類。
  • 預訓練模型 (Pretrained backbones based VLMs):使用預訓練的 LLM 和預訓練的Vision encoder。LLaVA為這一類VLM。

這四種訓練方法有時會混用。

https://ithelp.ithome.com.tw/upload/images/20250917/20178920y9QcimgG6P.png
圖片來源:An Introduction to Vision-Language Modeling


上一篇
Day 2:VLM應用領域
下一篇
Day 4 : CLIP – 連接圖像與文字的開創性模型
系列文
VLM6
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言