iT邦幫忙

鐵人檔案

2025 iThome 鐵人賽
回列表
生成式 AI

VLM 系列

VLM 應該是下一個熱區

鐵人鍊成 | 共 30 篇文章 | 1 人訂閱 訂閱系列文 RSS系列文
DAY 21

Day 21:大型語言模型的視覺語言任務能力

目前領先的 SOTA(State-of-the-Art,最先進)大型語言模型幾乎都已轉型為多模態模型,具備強大的視覺(Vision)處理能力。 GPT GPT...

2025-10-05 ‧ 由 皮二仔 分享
DAY 22

Day 22:什麼是VLM 微調 (Fine-Tuning)

微調是指在一個已經在海量通用數據上訓練好的基礎模型(Foundation Model)之上,使用少量、特定領域的數據集,進行額外的訓練,以調整模型的權重。微調讓...

2025-10-06 ‧ 由 皮二仔 分享
DAY 23

Day 23 :LoRA (Low-Rank Adaptation)

LoRA (Low-Rank Adaptation) 是一種高效、節省資源的微調(Fine-tuning)技術,在視覺語言模型 (Vision-Language...

2025-10-07 ‧ 由 皮二仔 分享
DAY 24

Day 24 :VLM QLoRA Fine-Tuning (1/3)

由於 VLM(視覺語言模型)通常非常大,我們需要結合 LoRA 和 4-bit 量化 (4-bit Quantization),也就是 QLoRA 技術,才能在...

2025-10-08 ‧ 由 皮二仔 分享
DAY 25

Day 25 :VLM QLoRA Fine-Tuning (2/3)

準備資料集 使用 Hugging Face 的 llava-instruct-150k 作為範例(圖像-指令對) from datasets import lo...

2025-10-09 ‧ 由 皮二仔 分享
DAY 26

Day 26:VLM QLoRA Fine-Tuning (3/4)- LLaVA微調

LLaVA 在推理(inference)或對話生成時使用的提示模板為"USER: \n{question}\nASSISTANT: {answer}&...

2025-10-10 ‧ 由 皮二仔 分享
DAY 27

Day 27 :OpenVLM Leaderboard

OpenVLM Leaderboard 是一個公開的排行榜,是一個專門用於評估和排名視覺語言模型(Vision Language Models, VLM)的基準...

2025-10-11 ‧ 由 皮二仔 分享
DAY 28

Day 28 :Transformer Reinforcement Learning

在視覺語言模型(Vision-Language Model, VLM)的微調(fine-tuning)過程中,「Transformer 強化學習」(Transf...

2025-10-12 ‧ 由 皮二仔 分享
DAY 29

Day 29:Improving grounding 改善VLM 視覺定位能力

改善視覺語言模型(VLM)的 Grounding, 指的是模型將語言概念與圖像中的具體物體、區域或關係準確對應起來的能力,簡單地說,就是模型能不能真正理解文字所...

2025-10-13 ‧ 由 皮二仔 分享
DAY 30

Day30 :VLM Fine-tuning 尚未成功,這是另一個開始!

剩20分鐘,這場戰役就要結束。為了避免我在最後一下功虧一簣,雖然VLM Fine-tuning沒成功,我還是記錄一下與AI協作程式後的進度,心得是AI的debu...

2025-10-14 ‧ 由 皮二仔 分享