iT邦幫忙

2025 iThome 鐵人賽

DAY 17
0
生成式 AI

VLM系列 第 17

Day 17 :專業任務型VLM - LLaVA-Med

  • 分享至 

  • xImage
  •  

前面在VLM的最新趨勢與進展一篇中,提到了VLM在專業任務型模型的能力也持續演進。後續幾天會介紹幾個我有興趣的專業任務型VLM。

LLaVA-Med

LLaVA-Med(Large Language-and-Vision Assistant for BioMedicine)是於2023年由微軟研究團隊開發的一個大型語言與視覺多模態AI模型,專門針對生物醫學領域設計。它旨在實現類似多模態 GPT-4 的能力,讓使用者能夠透過自然語言與生物醫學圖像(如 X 光片、病理切片或醫學圖表)進行對話和互動。

核心特點

  • 多模態對話能力:支援基於生物醫學圖像的開放式查詢,例如「這張 X 光片顯示了什麼異常?」或「解釋這張病理圖的意義」。
  • 指令跟隨:能處理複雜的醫學問題,並生成相關解釋。
  • 模型變體:包括 LLaVA-Med-7B(基於 LLaMA-7B)、v1.5 版本(基於 Mistral-7B),以及 delta 版本用於微調。

訓練與資料集

  • 基礎模型: 以通用的 LLaVA 模型權重為基礎進行初始化,以確保其具備多模態對話能力。
  • 數據來源: 主要利用從 PubMed Central (PMC) 提取的大規模、廣泛覆蓋的生物醫學圖文數據集 (PMC-15M)。
  • 創新訓練方法(課程學習):
    生物醫學概念對齊 (Concept Alignment): 首先使用PMC的圖文對(要求描述圖像)來微調模型,使其學習對齊生物醫學詞彙。
    指令微調 (Instruction-Tuning): 接著,使用 GPT-4 自行生成的多輪對話指令數據,對模型進行持續訓練,使其掌握開放式的對話語義。這模擬了非專業人士逐步學習醫學知識的過程。

任務能力

  • LLaVA-Med 的強項在於 醫學影像 + 語言理解:
  • 醫學影像解讀,例如:「請描述這張胸腔 X 光的異常特徵」
  • 醫學 QA,例如:「這張影像是否顯示心臟肥大?」
  • 報告生成:例如:自動產生 Radiology Report(描述 + Impression)
  • 臨床輔助決策:根據影像與文字病史,推理可能診斷

再次提醒,目前 LLaVA-Med 僅供研究用途,不能直接用於臨床醫療診斷。

為什麼是「部分開源」

  • 程式碼:LLaVA-Med 的核心程式(training/inference code)是 基於 LLaVA 官方開源框架,所以程式碼是開放的,使用者可以下載、執行,甚至修改。
  • 模型權重:部分版本公開,例如 Hugging Face 上有 7B、13B 權重,但不是所有訓練過的模型都釋出,特別是用到專屬醫療數據或商業合作資料的模型,因為資料可能涉及隱私/版權。
  • 資料集:有些核心醫學影像資料本身有授權限制,並不是「完全自由下載」,使用這些數據通常需要研究者註冊並簽署資料使用協議(Data Use Agreement)。所以完整的訓練 pipeline 難以完全重現,但可以在公開權重基礎上做微調。

參考:
LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day
https://github.com/microsoft/LLaVA-Med


上一篇
Day 16 :Granite Vision Model
下一篇
Day 18:Visual Grounding
系列文
VLM20
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言