Florence-2 是由 Microsoft Research 在 2024 年提出的一種一個創新的視覺基礎模型VFM(Visual Foundation M...
今天對Florence-2有更多的認識。 Florence-2 旨在實現廣泛的感知能力,涵蓋了不同層次的理解。這些任務可分為三大類:-圖像級理解任務 (Imag...
今天的內容參考這一篇:https://huggingface.co/blog/vlms-2025 VLM領域在這一年的發展有顯著變化:模型變得「更小但更強大」、...
Florence-2 在 Hugging Face 上有 “microsoft/Florence-2-base”,“microsoft/Florence-2-l...
近年來提到生成式AI,常常通過擴展參數數量來提昇智能,但目前已有新的趨勢,通過蒸餾等各種方法縮小更大的模型,因而降低了運算成本,簡化了部署,解鎖本地執行使用,並...
Granite Vision 是 IBM 在其 Granite 系列模型中,針對「視覺+語言」任務(multimodal / vision-language)在...
前面在VLM的最新趨勢與進展一篇中,提到了VLM在專業任務型模型的能力也持續演進。後續幾天會介紹幾個我有興趣的專業任務型VLM。 LLaVA-Med LLaVA...
Visual Grounding在視覺-語言模型 (VLM) 領域中,指的是視覺定位任務,旨在將自然語言描述與圖像中的特定區域或物件精準對應起來。具體來說,給定...
Grounding DINO 是一種開源的零樣本(zero-shot)物件檢測模型,由 IDEA-Research 團隊於 2023 年提出,被認為是當前開放詞...
GeoVLM 由 CAV-Research-Lab 團隊於 2024 年發布,是一種交叉視圖地理定位 (Cross-View Geo-Localisation,...