Day 17 ：專業任務型VLM - LLaVA-Med

17th鐵人賽

皮二仔

2025-10-01 23:19:05

105 瀏覽

分享至

前面在VLM的最新趨勢與進展一篇中，提到了VLM在專業任務型模型的能力也持續演進。後續幾天會介紹幾個我有興趣的專業任務型VLM。

LLaVA-Med

LLaVA-Med（Large Language-and-Vision Assistant for BioMedicine）是於2023年由微軟研究團隊開發的一個大型語言與視覺多模態AI模型，專門針對生物醫學領域設計。它旨在實現類似多模態 GPT-4 的能力，讓使用者能夠透過自然語言與生物醫學圖像（如 X 光片、病理切片或醫學圖表）進行對話和互動。

核心特點

多模態對話能力：支援基於生物醫學圖像的開放式查詢，例如「這張 X 光片顯示了什麼異常？」或「解釋這張病理圖的意義」。
指令跟隨：能處理複雜的醫學問題，並生成相關解釋。
模型變體：包括 LLaVA-Med-7B（基於 LLaMA-7B）、v1.5 版本（基於 Mistral-7B），以及 delta 版本用於微調。

訓練與資料集

基礎模型：以通用的 LLaVA 模型權重為基礎進行初始化，以確保其具備多模態對話能力。
數據來源：主要利用從 PubMed Central (PMC) 提取的大規模、廣泛覆蓋的生物醫學圖文數據集 (PMC-15M)。
創新訓練方法（課程學習）：
生物醫學概念對齊 (Concept Alignment)：首先使用PMC的圖文對（要求描述圖像）來微調模型，使其學習對齊生物醫學詞彙。
指令微調 (Instruction-Tuning)：接著，使用 GPT-4 自行生成的多輪對話指令數據，對模型進行持續訓練，使其掌握開放式的對話語義。這模擬了非專業人士逐步學習醫學知識的過程。

任務能力

LLaVA-Med 的強項在於醫學影像 + 語言理解：
醫學影像解讀，例如：「請描述這張胸腔 X 光的異常特徵」
醫學 QA，例如：「這張影像是否顯示心臟肥大？」
報告生成：例如：自動產生 Radiology Report（描述 + Impression）
臨床輔助決策：根據影像與文字病史，推理可能診斷

再次提醒，目前 LLaVA-Med 僅供研究用途，不能直接用於臨床醫療診斷。

為什麼是「部分開源」

程式碼：LLaVA-Med 的核心程式（training/inference code）是基於 LLaVA 官方開源框架，所以程式碼是開放的，使用者可以下載、執行，甚至修改。
模型權重：部分版本公開，例如 Hugging Face 上有 7B、13B 權重，但不是所有訓練過的模型都釋出，特別是用到專屬醫療數據或商業合作資料的模型，因為資料可能涉及隱私/版權。
資料集：有些核心醫學影像資料本身有授權限制，並不是「完全自由下載」，使用這些數據通常需要研究者註冊並簽署資料使用協議（Data Use Agreement）。所以完整的訓練 pipeline 難以完全重現，但可以在公開權重基礎上做微調。

參考：
LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day
https://github.com/microsoft/LLaVA-Med