Visual Grounding在視覺-語言模型 (VLM) 領域中,指的是視覺定位任務,旨在將自然語言描述與圖像中的特定區域或物件精準對應起來。具體來說,給定一張圖像和一段文字描述(如 "圖中左邊的紅色汽車"),模型需要識別並定位圖像中對應的物件或區域,通常以邊界框(bounding box)、分割遮罩(segmentation mask)或像素座標的形式輸出結果。這個任務結合了計算機視覺(圖像理解)和自然語言處理(語言理解),是多模態 AI 的核心能力之一。
Referring Expression Comprehension (REC)
目標:根據語言描述(如 "穿藍色外套的人"),在圖像中定位特定物件並返回邊界框。
應用:增強現實(AR)、圖像搜尋、機器人導航。
範例:輸入圖像 + "右邊的咖啡杯" → 輸出 [x1, y1, x2, y2] 或標記區域。
Referring Expression Segmentation (RES)
輸出該物件的分割遮罩,而不是單純框。
Phrase Grounding
目標:將一句話中的多個短語(如 "貓和狗")分別對應到圖像中的不同物件。
應用:圖像標註、視覺問答(VQA)。
範例:輸入 "貓在沙發上,狗在地板上" → 輸出貓和狗各自的邊界框。
Open-Vocabulary Grounding
目標:零樣本(zero-shot)識別未見過的物件描述,無需專門訓練。
應用:靈活的物件偵測,如電商圖片搜尋。
範例:輸入 "綠色背包"(模型未訓練過)→ 仍能正確定位。
Grounding 是許多高階 VLM 應用不可或缺的基礎,因為它為 VLM 提供了空間上下文和可解釋性。
歧義性:語言描述可能模糊(如 "左邊的杯子" 在多杯子場景中)。
複雜場景:圖像中物件重疊或背景雜亂。
零樣本能力:處理未見過的物件或描述需強大泛化能力。
計算資源:高精度 grounding 需高效模型以在 Colab 等環境運行。
機器人:讓機器人根據指令(如 "拿桌上的藍色杯子")執行任務。
圖像編輯:精準選取用戶描述的區域進行後處理。
醫療影像:定位醫學圖像中的異常區域(如 "右肺的結節")。
自動駕駛:識別特定路標或障礙物。
Grounding 模型通常可分為兩類:專門的偵測器和通用的 VLM。