改善視覺語言模型(VLM)的 Grounding, 指的是模型將語言概念與圖像中的具體物體、區域或關係準確對應起來的能力,簡單地說,就是模型能不能真正理解文字所指的到底對應到圖片中的哪個部分。
VLM 的grounding是一個重要的挑戰,因為模型可能無法很好地理解文字提示,這可能導致忽略提示的某些部分,或產生提示中不存在的幻覺內容。這些挑戰通常與理解關係(例如物體在左邊或右邊)、否定詞、計數或理解屬性(例如顏色或紋理)有關。
Grounding 包含兩個主要面向:
根據現有的資料,改善VLM ground的兩種主要技術方法是:
使用邊界框註釋(Using bounding boxes annotations)
利用邊界框註釋來幫助模型準確定位視覺概念並將其與相應的文本描述對齊。
負面標註或使用負樣本(Negative captioning or using negative samples)
類似於對比學習中的負面樣本,透過對比正確和錯誤的圖像-字幕配對,迫使 VLM 開發更細緻的理解能力,從而提高其準確性和對上下文的感知能力。