iT邦幫忙

鐵人檔案

2025 iThome 鐵人賽
回列表
生成式 AI

VLM 系列

VLM 應該是下一個熱區

參賽天數 22 天 | 共 22 篇文章 | 0 人訂閱 訂閱系列文 RSS系列文
DAY 11

Day11:Florence-2. (1/2)

Florence-2 是由 Microsoft Research 在 2024 年提出的一種一個創新的視覺基礎模型VFM(Visual Foundation M...

2025-09-25 ‧ 由 皮二仔 分享
DAY 12

Day12:Florence-2 (2/2)

今天對Florence-2有更多的認識。 Florence-2 旨在實現廣泛的感知能力,涵蓋了不同層次的理解。這些任務可分為三大類:-圖像級理解任務 (Imag...

2025-09-26 ‧ 由 皮二仔 分享
DAY 13

Day13:VLM的最新趨勢與進展

今天的內容參考這一篇:https://huggingface.co/blog/vlms-2025 VLM領域在這一年的發展有顯著變化:模型變得「更小但更強大」、...

2025-09-27 ‧ 由 皮二仔 分享
DAY 14

Day14 :動手玩Florence-2

Florence-2 在 Hugging Face 上有 “microsoft/Florence-2-base”,“microsoft/Florence-2-l...

2025-09-28 ‧ 由 皮二仔 分享
DAY 15

Day15:小而強VLM-SmolVLM2

近年來提到生成式AI,常常通過擴展參數數量來提昇智能,但目前已有新的趨勢,通過蒸餾等各種方法縮小更大的模型,因而降低了運算成本,簡化了部署,解鎖本地執行使用,並...

2025-09-29 ‧ 由 皮二仔 分享
DAY 16

Day 16 :Granite Vision Model

Granite Vision 是 IBM 在其 Granite 系列模型中,針對「視覺+語言」任務(multimodal / vision-language)在...

2025-09-30 ‧ 由 皮二仔 分享
DAY 17

Day 17 :專業任務型VLM - LLaVA-Med

前面在VLM的最新趨勢與進展一篇中,提到了VLM在專業任務型模型的能力也持續演進。後續幾天會介紹幾個我有興趣的專業任務型VLM。 LLaVA-Med LLaVA...

2025-10-01 ‧ 由 皮二仔 分享
DAY 18

Day 18:Visual Grounding

Visual Grounding在視覺-語言模型 (VLM) 領域中,指的是視覺定位任務,旨在將自然語言描述與圖像中的特定區域或物件精準對應起來。具體來說,給定...

2025-10-02 ‧ 由 皮二仔 分享
DAY 19

Day 19 :Grounding DINO

Grounding DINO 是一種開源的零樣本(zero-shot)物件檢測模型,由 IDEA-Research 團隊於 2023 年提出,被認為是當前開放詞...

2025-10-03 ‧ 由 皮二仔 分享
DAY 20

Day 20 :VLM 在自動駕駛的應用-GeoVLM

GeoVLM 由 CAV-Research-Lab 團隊於 2024 年發布,是一種交叉視圖地理定位 (Cross-View Geo-Localisation,...

2025-10-04 ‧ 由 皮二仔 分享