iT邦幫忙

2025 iThome 鐵人賽

DAY 23
0
生成式 AI

VLM系列 第 23

Day 23 :LoRA (Low-Rank Adaptation)

  • 分享至 

  • xImage
  •  

LoRA (Low-Rank Adaptation) 是一種高效、節省資源的微調(Fine-tuning)技術,在視覺語言模型 (Vision-Language Models, VLM) 的應用中非常重要。它屬於參數高效微調 (Parameter-Efficient Fine-Tuning, PEFT) 方法的一種,目的是在不需要重新訓練整個大型模型的情況下,讓模型學會新任務或新資料特性。

為什麼需要 LoRA

對於像 CLIP、LLaVA、PaliGemma 這類VLM,完整 fine-tuning 會遇到的問題包括:參數量非常大(數十億以上);記憶體需求高,訓練時間長,成本高;原模型權重可能受授權限制,無法改寫;不同任務需要不同版本模型,不方便維護。LoRA 的出現就是為了解決這些問題,只訓練少量附加參數(adapter),保留原模型權重不變。

LoRA 在 VLM Fine-tuning 中的優勢

對於 VLM 這種需要處理視覺(如圖片編碼器)和語言(如大型語言模型)的複雜模型來說,LoRA 的優勢更為突出:

  • 極度節省記憶體:相比全模型微調,LoRA 只需更新和儲存極少數的參數,可以顯著降低 VRAM (GPU 記憶體) 的需求,讓個人研究者或小型團隊也能在消費級 GPU 上進行微調。
  • 加速訓練時間:由於訓練的參數大幅減少,訓練速度通常會加快,適合在資源受限的環境中進行微調。
  • 維持模型性能:LoRA 可以在只更新極少數參數的情況下,保持或達到與全模型微調相近的性能,這得益於 VLM 預訓練權重的強大基礎,由於原始預訓練權重保持不變,LoRA不會破壞模型的通用知識,適合多任務學習。
  • 視覺與語言適配:LoRA 可以靈活地應用於 VLM 的視覺編碼器 (Vision Encoder) 或語言模型 (Language Model, LLM) 部分,甚至兩者都應用,從而讓模型更好地適應特定領域的視覺或文本模式。
  • 輕鬆切換任務:每個微調後的任務只需儲存一組很小的權重差異,方便快速切換不同的下游任務,而無需存儲多個完整模型,大幅減少儲存空間。

LoRA應用於 VLM

在 VLM 上應用 LoRA 時,主要的設計選擇是如何將適配器注入模型的哪一部分:

  1. 語言模組微調 (LoRA on LLM):
    主要應用在 VLM 中負責文本處理的語言模型部分(如 LLaVA 中的 Llama 或 Mistral 部分),有助於模型學習特定任務的對話風格、指令遵循或特定領域知識。
  2. 視覺模組微調 (LoRA on Vision Encoder):
    將 LoRA 應用於 VLM 的視覺編碼器層(如 ViT),這使得模型能夠更好地識別特定領域的視覺模式(例如,醫學影像、衛星圖像、特定風格的藝術品等),而無需從頭訓練整個視覺處理管線。
  3. 多模態連接器微調 (LoRA on Projector):
    有些 VLM 還有一個連接器/投影器 (Projector/Merger),用於將視覺特徵轉換並對齊到語言模型的輸入空間,微調這個連接器也能有效地提升多模態數據的整合能力。

上一篇
Day 22:什麼是VLM 微調 (Fine-Tuning)
系列文
VLM23
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言