VLM :: 2025 iThome 鐵人賽

皮二仔 (impyy)

iT邦見習生 ‧ 點數 132

自由工作者個人背景限制了想像

749

累計瀏覽數

0人

在追蹤

站內簡訊追蹤

鐵人檔案

2025 iThome 鐵人賽

回列表

生成式 AI

VLM 系列

VLM 應該是下一個熱區

鐵人鍊成｜共 30 篇文章｜ 1 人訂閱訂閱系列文 RSS系列文

0 Like 0 留言 196 瀏覽

DAY 21

Day 21：大型語言模型的視覺語言任務能力

目前領先的 SOTA（State-of-the-Art，最先進）大型語言模型幾乎都已轉型為多模態模型，具備強大的視覺（Vision）處理能力。 GPT GPT...

2025-10-05 ‧ 由皮二仔分享

0 Like 0 留言 134 瀏覽

DAY 22

Day 22：什麼是VLM 微調 (Fine-Tuning)

微調是指在一個已經在海量通用數據上訓練好的基礎模型（Foundation Model）之上，使用少量、特定領域的數據集，進行額外的訓練，以調整模型的權重。微調讓...

2025-10-06 ‧ 由皮二仔分享

0 Like 0 留言 154 瀏覽

DAY 23

Day 23 ：LoRA (Low-Rank Adaptation)

LoRA (Low-Rank Adaptation) 是一種高效、節省資源的微調（Fine-tuning）技術，在視覺語言模型 (Vision-Language...

2025-10-07 ‧ 由皮二仔分享

0 Like 0 留言 103 瀏覽

DAY 24

Day 24 ：VLM QLoRA Fine-Tuning （1/3）

由於 VLM（視覺語言模型）通常非常大，我們需要結合 LoRA 和 4-bit 量化 (4-bit Quantization)，也就是 QLoRA 技術，才能在...

2025-10-08 ‧ 由皮二仔分享

0 Like 0 留言 84 瀏覽

DAY 25

Day 25 ：VLM QLoRA Fine-Tuning （2/3）

準備資料集使用 Hugging Face 的 llava-instruct-150k 作為範例（圖像-指令對） from datasets import lo...

2025-10-09 ‧ 由皮二仔分享

0 Like 0 留言 101 瀏覽

DAY 26

Day 26：VLM QLoRA Fine-Tuning （3/4）- LLaVA微調

LLaVA 在推理（inference）或對話生成時使用的提示模板為"USER: \n{question}\nASSISTANT: {answer}&...

2025-10-10 ‧ 由皮二仔分享

0 Like 0 留言 141 瀏覽

DAY 27

Day 27 ：OpenVLM Leaderboard

OpenVLM Leaderboard 是一個公開的排行榜，是一個專門用於評估和排名視覺語言模型（Vision Language Models, VLM）的基準...

2025-10-11 ‧ 由皮二仔分享

0 Like 0 留言 90 瀏覽

DAY 28

Day 28 ：Transformer Reinforcement Learning

在視覺語言模型（Vision-Language Model, VLM）的微調（fine-tuning）過程中，「Transformer 強化學習」（Transf...

2025-10-12 ‧ 由皮二仔分享

0 Like 0 留言 89 瀏覽

DAY 29

Day 29：Improving grounding 改善VLM 視覺定位能力

改善視覺語言模型（VLM）的 Grounding, 指的是模型將語言概念與圖像中的具體物體、區域或關係準確對應起來的能力，簡單地說，就是模型能不能真正理解文字所...

2025-10-13 ‧ 由皮二仔分享

0 Like 0 留言 143 瀏覽

DAY 30

Day30 ：VLM Fine-tuning 尚未成功，這是另一個開始！

剩20分鐘，這場戰役就要結束。為了避免我在最後一下功虧一簣，雖然VLM Fine-tuning沒成功，我還是記錄一下與AI協作程式後的進度，心得是AI的debu...

2025-10-14 ‧ 由皮二仔分享

皮二仔的鐵人檔案

皮二仔的收藏

皮二仔的追蹤

皮二仔的Like

皮二仔的紀錄

皮二仔的訂閱列表

鐵人檔案

VLM 系列

標記使用者