VLM :: 2025 iThome 鐵人賽

皮二仔 (impyy)

iT邦見習生 ‧ 點數 132

自由工作者個人背景限制了想像

2518

累計瀏覽數

0人

在追蹤

站內簡訊追蹤

鐵人檔案

2025 iThome 鐵人賽

回列表

生成式 AI

VLM 系列

VLM 應該是下一個熱區

鐵人鍊成｜共 30 篇文章｜ 2 人訂閱訂閱系列文 RSS系列文

0 Like 1 留言 2940 瀏覽

DAY 1

Day 1 - 什麼是VLM

視覺語言模型(Vision Language Model, VLM) 是融合了電腦視覺(Computer Vision)和自然語言處理 (NLP) 演算法的人工...

2025-09-15 ‧ 由皮二仔分享

1 Like 0 留言 753 瀏覽

DAY 2

Day 2：VLM應用領域

圖片來源：huggingface 在Day1 提到了VLM可以完成哪些任務，參考上面這張圖片可以理解得更清楚。這些任務未來可以具體被應用在哪些領域：醫療影...

2025-09-16 ‧ 由皮二仔分享

0 Like 0 留言 1894 瀏覽

DAY 3

Day 3：VLM架構及如何訓練

VLM架構 VLM 的核心在於其具備將圖像轉換為 LLM 可理解的格式的能力，大部份的VLM運作包括三個主要組件：大型語言模型 (LLM)：這是 VLM 的...

2025-09-17 ‧ 由皮二仔分享

0 Like 0 留言 1308 瀏覽

DAY 4

Day 4 ： CLIP – 連接圖像與文字的開創性模型

CLIP (Contrastive Language-Image Pre-Training) OpenAI在2021年提出CLIP，為跨模態模型在訓練方式和應用...

2025-09-18 ‧ 由皮二仔分享

0 Like 0 留言 1083 瀏覽

DAY 5

Day5：實作-用CLIP進行圖文相似度計算與 Zero-Shot 分類

圖片與文字的相似度計算 1.載入CLIP模型 import torch from PIL import Image from transformers impo...

2025-09-19 ‧ 由皮二仔分享

0 Like 0 留言 1043 瀏覽

DAY 6

Day6 ：LLaVA

LLaVA（Large Language and Vision Assistant，大型語言與視覺助理）是第一個將「指令微調」Instruction-tunin...

2025-09-20 ‧ 由皮二仔分享

0 Like 0 留言 630 瀏覽

DAY 7

Day7：動手玩LLaVA

以下的範例可以在Colab T4環境中運行。載入LLaVA 處理器與模型，使用 llava-1.5-7b-hf，可以在 T4 上良好運行，模型載入花了大約5...

2025-09-21 ‧ 由皮二仔分享

0 Like 0 留言 586 瀏覽

DAY 8

Day8：Visual Foundation Model 視覺基礎模型的發展

過去幾年在自然語言處理 (NLP) 領域，從 BERT 到 ChatGPT這樣的通用模型的演進，已經可以確立是成功的模式，這種模式現今也為電腦視覺和多模態領域提...

2025-09-22 ‧ 由皮二仔分享

0 Like 0 留言 480 瀏覽

DAY 9

Day9: PaliGemma 實作 (1/2)

今天使用PaliGemma沒有想像的順利，但還是把過程記錄一下我試paligemma-3b-pt-224雖然沒有問題，但可能因為模型太小，回答的非常不好，可能...

2025-09-23 ‧ 由皮二仔分享

0 Like 0 留言 422 瀏覽

DAY 10

Day10：PaliGemma (2/2)

今天沒有放程式碼！就是清楚了昨天為什麼模型回答不好的原因。這是PaliGemma的官網：https://ai.google.dev/gemma/docs/pa...

2025-09-24 ‧ 由皮二仔分享

皮二仔的鐵人檔案

皮二仔的收藏

皮二仔的追蹤

皮二仔的Like

皮二仔的紀錄

皮二仔的訂閱列表

鐵人檔案

VLM 系列

標記使用者