iT邦幫忙

2025 iThome 鐵人賽

DAY 29
0
生成式 AI

VLM系列 第 29

Day 29:Improving grounding 改善VLM 視覺定位能力

  • 分享至 

  • xImage
  •  

改善視覺語言模型(VLM)的 Grounding, 指的是模型將語言概念與圖像中的具體物體、區域或關係準確對應起來的能力,簡單地說,就是模型能不能真正理解文字所指的到底對應到圖片中的哪個部分。
VLM 的grounding是一個重要的挑戰,因為模型可能無法很好地理解文字提示,這可能導致忽略提示的某些部分,或產生提示中不存在的幻覺內容。這些挑戰通常與理解關係(例如物體在左邊或右邊)、否定詞、計數或理解屬性(例如顏色或紋理)有關。
Grounding 包含兩個主要面向:

  • Referential Grounding:理解語言指涉的對象並在圖像中定位,例如:“the man in the red shirt,VLM 可找出紅衣男子的 bounding box
  • Compositional Grounding:理解語言與視覺的結構關係,例如:“the dog under the table”,將「狗」與「桌子」的相對空間關係(上、下、左、右等)正確理解。

根據現有的資料,改善VLM ground的兩種主要技術方法是:

  1. 使用邊界框註釋(Using bounding boxes annotations)
    利用邊界框註釋來幫助模型準確定位視覺概念並將其與相應的文本描述對齊。

  2. 負面標註或使用負樣本(Negative captioning or using negative samples)
    類似於對比學習中的負面樣本,透過對比正確和錯誤的圖像-字幕配對,迫使 VLM 開發更細緻的理解能力,從而提高其準確性和對上下文的感知能力。

  • 機制與目標: 透過將正樣本對(相似或相關樣本)與負樣本對(不相似或不相關樣本)進行對比,模型被迫對數據發展出細緻入微的理解,超越表面的特徵,以掌握區分不同類別或底層模式的能力。
  • 應用於 VLM: 最近關於 VLM 的研究表明,類似的技術(負樣本)可以被採用來緩解視覺語言模型中的各種問題。
    於負樣本所培養的細緻差異化能力已被證明能顯著使 VLM 受益,從而產生更準確和更具情境感知性的模型。

上一篇
Day 28 :Transformer Reinforcement Learning
下一篇
Day30 :VLM Fine-tuning 尚未成功,這是另一個開始!
系列文
VLM30
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言