iT邦幫忙

2025 iThome 鐵人賽

DAY 20
0
生成式 AI

VLM系列 第 20

Day 20 :VLM 在自動駕駛的應用-GeoVLM

  • 分享至 

  • xImage
  •  

GeoVLM 由 CAV-Research-Lab 團隊於 2024 年發布,是一種交叉視圖地理定位 (Cross-View Geo-Localisation, CVGL) 方法,主要目標是提高自動駕駛車輛的定位精度。

核心概念:

  • GeoVLM 專注於「跨視角地理定位」(Cross-View Geo-Localization),這是一種將地面視角圖像(如街景照片)與衛星或航拍圖像匹配的技術,用於確定自動駕駛車輛的粗略地理位置。
  • 利用 VLM 的零樣本能力,生成可解釋的跨視角語言描述(cross-view language descriptions),例如描述圖像中的建築、道路或地標。
  • 作為一個可訓練的重排序(reranking)方法,它在初始圖像檢索後,透過結合圖像特徵和語言描述,提升正確匹配的準確率(best match accuracy)。
  • 解決傳統方法的痛點:傳統的跨視角定位方法,可能只是機械地比較地面街景照片和衛星空拍照片的像素、顏色或紋理,相似場景容易導致錯誤排名,GeoVLM 利用視覺語言模型,透過視覺推理(visual reasoning),為來自不同視角的圖像生成具有可解釋性的自然語言描述,以改善此問題。

GeoVLM不再僅僅依賴像素級的視覺比對,而是為地面視角影像和衛星影像生成可解釋的跨視角語言描述(interpretable cross-view language descriptions)。
舉例來說,一個VLM或許能將街景圖生成描述為「一條雙線道旁的紅磚建築」,並將對應的衛星圖描述為「一個鄰近公園的L形紅頂屋頂」。透過比對這些語義層次的自然語言描述,GeoVLM能夠更精準地識別出兩者之間的內在關聯,有效過濾掉那些僅僅是「看起來像」的干擾項,從而極大地提升了匹配的精準度與可解釋性。

也就是,GeoVLM 使用語言的語義理解作為一個輔助機制,來精確區分視覺上難以分辨的地理位置。

模型的相關論文GeoVLM: Improving Automated Vehicle Geolocalisation Using Vision-Language Matching中明確指出,其程式碼已公開釋出,採用 MIT 授權 (MIT license)。
GitHub 連結: https://github.com/CAV-Research-Lab/GeoVLM
研究人員和開發者可以存取、使用並根據自己的需求修改這個模型來改進自動駕駛車輛的地理定位任務。


上一篇
Day 19 :Grounding DINO
系列文
VLM20
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言