Day 3：VLM架構及如何訓練

2025 iThome 鐵人賽

DAY 3

生成式 AI

17th鐵人賽 vlm

283 瀏覽

VLM 的核心在於其具備將圖像轉換為 LLM 可理解的格式的能力，大部份的VLM運作包括三個主要組件：

大型語言模型 (LLM)：這是 VLM 的基礎，負責文本處理和最終的文本輸出。
視覺編碼器 (Vision Encoder)：視覺編碼器的作用是將圖像轉換為 LLM 可處理的格式。它將圖像轉換成「特徵向量 (feature vector)」，這些特徵向量是圖像內容的結構化表示。
投影器 (Projector)：將視覺編碼器的輸出轉換成 LLM 可以理解的形式，通常解釋為圖像標記，也可說是將圖像嵌入映射到基於令牌的格式，這表示將產生圖像令牌 (image tokens)，並與 LLM 使用的文本令牌表示會對齊。

圖像令牌和文本令牌同時被送入大型語言模型，模型使用其注意力機制將它們一起處理，故無論其來源是文本還是圖像，最終會生成一個文本回應，可以是字幕或圖像解釋，或是需要同時回覆圖像和文本內容的問題答案。

圖片來源：NVIDIA

VLM的訓練策略涉及對齊和融合來自視覺和語言編碼器的信息，以便可以學習將圖像與文本相關聯。有幾種訓練方法：

對比學習 (Contrastive learning):VLM 在圖像-文本對的數據集上進行訓練，並學習最小化匹配對嵌入之間的距離，並最大化不匹配對的距離。是較常用的訓練方法，CLIP即為這一類VLM。
遮罩 (Masking)：VLM會學習預測並重建文字或圖像的隨機遮擋部分，FLAVA即為此類。
生成模型訓練 (Generative-based VLMs)：VLM 的生成模型訓練需要學習產生新資料，從輸入文字產生影像，或是從輸入影像產生文字。Stable Diffusion為此類。
預訓練模型 (Pretrained backbones based VLMs)：使用預訓練的 LLM 和預訓練的Vision encoder。LLaVA為這一類VLM。

這四種訓練方法有時會混用。