GeoVLM 由 CAV-Research-Lab 團隊於 2024 年發布,是一種交叉視圖地理定位 (Cross-View Geo-Localisation, CVGL) 方法,主要目標是提高自動駕駛車輛的定位精度。
GeoVLM不再僅僅依賴像素級的視覺比對,而是為地面視角影像和衛星影像生成可解釋的跨視角語言描述(interpretable cross-view language descriptions)。
舉例來說,一個VLM或許能將街景圖生成描述為「一條雙線道旁的紅磚建築」,並將對應的衛星圖描述為「一個鄰近公園的L形紅頂屋頂」。透過比對這些語義層次的自然語言描述,GeoVLM能夠更精準地識別出兩者之間的內在關聯,有效過濾掉那些僅僅是「看起來像」的干擾項,從而極大地提升了匹配的精準度與可解釋性。
也就是,GeoVLM 使用語言的語義理解作為一個輔助機制,來精確區分視覺上難以分辨的地理位置。
模型的相關論文GeoVLM: Improving Automated Vehicle Geolocalisation Using Vision-Language Matching中明確指出,其程式碼已公開釋出,採用 MIT 授權 (MIT license)。
GitHub 連結: https://github.com/CAV-Research-Lab/GeoVLM
研究人員和開發者可以存取、使用並根據自己的需求修改這個模型來改進自動駕駛車輛的地理定位任務。