VLM :: 2025 iThome 鐵人賽

皮二仔 (impyy)

iT邦見習生 ‧ 點數 132

自由工作者個人背景限制了想像

2249

累計瀏覽數

0人

在追蹤

站內簡訊追蹤

鐵人檔案

2025 iThome 鐵人賽

回列表

生成式 AI

VLM 系列

VLM 應該是下一個熱區

鐵人鍊成｜共 30 篇文章｜ 2 人訂閱訂閱系列文 RSS系列文

0 Like 0 留言 714 瀏覽

DAY 11

Day11：Florence-2. (1/2)

Florence-2 是由 Microsoft Research 在 2024 年提出的一種一個創新的視覺基礎模型VFM（Visual Foundation M...

2025-09-25 ‧ 由皮二仔分享

0 Like 0 留言 359 瀏覽

DAY 12

Day12：Florence-2 (2/2)

今天對Florence-2有更多的認識。 Florence-2 旨在實現廣泛的感知能力，涵蓋了不同層次的理解。這些任務可分為三大類：-圖像級理解任務 (Imag...

2025-09-26 ‧ 由皮二仔分享

0 Like 0 留言 490 瀏覽

DAY 13

Day13：VLM的最新趨勢與進展

今天的內容參考這一篇：https://huggingface.co/blog/vlms-2025 VLM領域在這一年的發展有顯著變化：模型變得「更小但更強大」、...

2025-09-27 ‧ 由皮二仔分享

0 Like 0 留言 706 瀏覽

DAY 14

Day14 ：動手玩Florence-2

Florence-2 在 Hugging Face 上有 “microsoft/Florence-2-base”，“microsoft/Florence-2-l...

2025-09-28 ‧ 由皮二仔分享

0 Like 0 留言 629 瀏覽

DAY 15

Day15：小而強VLM-SmolVLM2

近年來提到生成式AI，常常通過擴展參數數量來提昇智能，但目前已有新的趨勢，通過蒸餾等各種方法縮小更大的模型，因而降低了運算成本，簡化了部署，解鎖本地執行使用，並...

2025-09-29 ‧ 由皮二仔分享

0 Like 0 留言 237 瀏覽

DAY 16

Day 16 ：Granite Vision Model

Granite Vision 是 IBM 在其 Granite 系列模型中，針對「視覺＋語言」任務（multimodal / vision-language）在...

2025-09-30 ‧ 由皮二仔分享

0 Like 0 留言 307 瀏覽

DAY 17

Day 17 ：專業任務型VLM - LLaVA-Med

前面在VLM的最新趨勢與進展一篇中，提到了VLM在專業任務型模型的能力也持續演進。後續幾天會介紹幾個我有興趣的專業任務型VLM。 LLaVA-Med LLaVA...

2025-10-01 ‧ 由皮二仔分享

0 Like 0 留言 594 瀏覽

DAY 18

Day 18：Visual Grounding

Visual Grounding在視覺-語言模型 (VLM) 領域中，指的是視覺定位任務，旨在將自然語言描述與圖像中的特定區域或物件精準對應起來。具體來說，給定...

2025-10-02 ‧ 由皮二仔分享

0 Like 0 留言 1604 瀏覽

DAY 19

Day 19 ：Grounding DINO

Grounding DINO 是一種開源的零樣本（zero-shot）物件檢測模型，由 IDEA-Research 團隊於 2023 年提出，被認為是當前開放詞...

2025-10-03 ‧ 由皮二仔分享

0 Like 0 留言 395 瀏覽

DAY 20

Day 20 ：VLM 在自動駕駛的應用-GeoVLM

GeoVLM 由 CAV-Research-Lab 團隊於 2024 年發布，是一種交叉視圖地理定位 (Cross-View Geo-Localisation,...

2025-10-04 ‧ 由皮二仔分享

皮二仔的鐵人檔案

皮二仔的收藏

皮二仔的追蹤

皮二仔的Like

皮二仔的紀錄

皮二仔的訂閱列表

鐵人檔案

VLM 系列

標記使用者