iT邦幫忙

鐵人檔案

2025 iThome 鐵人賽
回列表
生成式 AI

VLM 系列

VLM 應該是下一個熱區

參賽天數 22 天 | 共 22 篇文章 | 0 人訂閱 訂閱系列文 RSS系列文
DAY 1

Day 1 - 什麼是VLM

視覺語言模型(Vision Language Model, VLM) 是融合了電腦視覺(Computer Vision)和自然語言處理 (NLP) 演算法的人工...

2025-09-15 ‧ 由 皮二仔 分享
DAY 2

Day 2:VLM應用領域

圖片來源:huggingface 在Day1 提到了VLM可以完成哪些任務,參考上面這張圖片可以理解得更清楚。 這些任務未來可以具體被應用在哪些領域: 醫療影...

2025-09-16 ‧ 由 皮二仔 分享
DAY 3

Day 3:VLM架構及如何訓練

VLM架構 VLM 的核心在於其具備將圖像轉換為 LLM 可理解的格式的能力,大部份的VLM運作包括三個主要組件: 大型語言模型 (LLM):這是 VLM 的...

2025-09-17 ‧ 由 皮二仔 分享
DAY 4

Day 4 : CLIP – 連接圖像與文字的開創性模型

CLIP (Contrastive Language-Image Pre-Training) OpenAI在2021年提出CLIP,為跨模態模型在訓練方式和應用...

2025-09-18 ‧ 由 皮二仔 分享
DAY 5

Day5:實作-用CLIP進行圖文相似度計算與 Zero-Shot 分類

圖片與文字的相似度計算 1.載入CLIP模型 import torch from PIL import Image from transformers impo...

2025-09-19 ‧ 由 皮二仔 分享
DAY 6

Day6 :LLaVA

LLaVA(Large Language and Vision Assistant,大型語言與視覺助理)是第一個將「指令微調」Instruction-tunin...

2025-09-20 ‧ 由 皮二仔 分享
DAY 7

Day7:動手玩LLaVA

以下的範例可以在Colab T4環境中運行。 載入LLaVA 處理器與模型,使用 llava-1.5-7b-hf,可以在 T4 上良好運行,模型載入花了大約5...

2025-09-21 ‧ 由 皮二仔 分享
DAY 8

Day8:Visual Foundation Model 視覺基礎模型的發展

過去幾年在自然語言處理 (NLP) 領域,從 BERT 到 ChatGPT這樣的通用模型的演進,已經可以確立是成功的模式,這種模式現今也為電腦視覺和多模態領域提...

2025-09-22 ‧ 由 皮二仔 分享
DAY 9

Day9: PaliGemma 實作 (1/2)

今天使用PaliGemma沒有想像的順利,但還是把過程記錄一下 我試paligemma-3b-pt-224雖然沒有問題,但可能因為模型太小,回答的非常不好,可能...

2025-09-23 ‧ 由 皮二仔 分享
DAY 10

Day10:PaliGemma (2/2)

今天沒有放程式碼!就是清楚了昨天為什麼模型回答不好的原因。 這是PaliGemma的官網:https://ai.google.dev/gemma/docs/pa...

2025-09-24 ‧ 由 皮二仔 分享