iT邦幫忙

2025 iThome 鐵人賽

DAY 18
0
生成式 AI

VLM系列 第 18

Day 18:Visual Grounding

  • 分享至 

  • xImage
  •  

Visual Grounding在視覺-語言模型 (VLM) 領域中,指的是視覺定位任務,旨在將自然語言描述與圖像中的特定區域或物件精準對應起來。具體來說,給定一張圖像和一段文字描述(如 "圖中左邊的紅色汽車"),模型需要識別並定位圖像中對應的物件或區域,通常以邊界框(bounding box)、分割遮罩(segmentation mask)或像素座標的形式輸出結果。這個任務結合了計算機視覺(圖像理解)和自然語言處理(語言理解),是多模態 AI 的核心能力之一。

核心要素/主要類型

  1. Referring Expression Comprehension (REC)
    目標:根據語言描述(如 "穿藍色外套的人"),在圖像中定位特定物件並返回邊界框。
    應用:增強現實(AR)、圖像搜尋、機器人導航。
    範例:輸入圖像 + "右邊的咖啡杯" → 輸出 [x1, y1, x2, y2] 或標記區域。

  2. Referring Expression Segmentation (RES)
    輸出該物件的分割遮罩,而不是單純框。

  3. Phrase Grounding
    目標:將一句話中的多個短語(如 "貓和狗")分別對應到圖像中的不同物件。
    應用:圖像標註、視覺問答(VQA)。
    範例:輸入 "貓在沙發上,狗在地板上" → 輸出貓和狗各自的邊界框。

  4. Open-Vocabulary Grounding
    目標:零樣本(zero-shot)識別未見過的物件描述,無需專門訓練。
    應用:靈活的物件偵測,如電商圖片搜尋。
    範例:輸入 "綠色背包"(模型未訓練過)→ 仍能正確定位。

Grounding與傳統物件偵測的區別:

  • Visual Grounding
    • 高度依賴文本描述。模型必須理解文本中的細節和語義,才能找到目標。
    • 開放詞彙 (Open-Vocabulary)。目標是描述性短語,可以是任何東西。
    • 專注於語言推理和精確定位的結合。
  • 傳統物件偵測 (Object Detection)
    • 不依賴文本描述。模型只偵測預先定義的類別(例如:人、車、狗)。
    • 固定類別 (Fixed Classes)。目標是有限、預先訓練好的類別。
    • 專注於識別能力和速度。

Grounding 的重要性

Grounding 是許多高階 VLM 應用不可或缺的基礎,因為它為 VLM 提供了空間上下文和可解釋性。

  1. 數據標註與自動化
    半自動標註: 使用 Grounding 模型,當輸入「建築物」,模型會自動生成「建築物」的邊界框,大大加速人工數據標註過程。
    文檔結構分析: 在文檔 VLM 中,Grounding 用於定位和提取特定資訊,例如根據「發票號碼」或「總金額」等文字來圈出圖像中對應的欄位位置。
  2. 機器人與Embodied AI
    指令跟隨: 讓機器人執行複雜指令的基礎。例如,當你說:「把桌上那個藍色的杯子拿給我」,Grounding 能力確保機器人知道「藍色的杯子」具體指的是哪一個。
  3. 進階 VLM 推理
    可視化問答 (VQA): 當 VLM 執行複雜的推理問答時(例如:「這張圖中穿著外套的人是誰?」),Grounding 能力確保 VLM 在回答時是看著正確的物件進行推理,而不是憑空猜測。
  4. 圖像編輯與生成
    在圖片生成和編輯模型中,Grounding 用於指導編輯的區域。例如,如果你想「把照片中最左邊那輛車塗成黃色」,Grounding 能力確保只編輯正確的目標。

Grounding模型目前的挑戰

歧義性:語言描述可能模糊(如 "左邊的杯子" 在多杯子場景中)。
複雜場景:圖像中物件重疊或背景雜亂。
零樣本能力:處理未見過的物件或描述需強大泛化能力。
計算資源:高精度 grounding 需高效模型以在 Colab 等環境運行。

Grounding模型應用場景

機器人:讓機器人根據指令(如 "拿桌上的藍色杯子")執行任務。
圖像編輯:精準選取用戶描述的區域進行後處理。
醫療影像:定位醫學圖像中的異常區域(如 "右肺的結節")。
自動駕駛:識別特定路標或障礙物。

專業的 Grounding 模型

Grounding 模型通常可分為兩類:專門的偵測器和通用的 VLM。

  • 專門 Grounding 模型:Grounding DINO
    這是一個專門設計來進行開放詞彙物件偵測和 Grounding 的模型。它將文本輸入與視覺特徵結合,能夠輸出極為精確的邊界框,是目前最受歡迎的 Grounding 解決方案之一。
  • 整合式 Grounding VLM:Florence-2 / PaliGemma 2
    這些是完整的 VLM,它們將 Grounding 作為其眾多任務之一。您可以在一個模型中同時進行對話、問答,並要求它輸出相關物件的邊界框或分割遮罩。這兩個我們在前面已介紹過。

上一篇
Day 17 :專業任務型VLM - LLaVA-Med
下一篇
Day 19 :Grounding DINO
系列文
VLM20
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言