前面在VLM的最新趨勢與進展一篇中,提到了VLM在專業任務型模型的能力也持續演進。後續幾天會介紹幾個我有興趣的專業任務型VLM。
LLaVA-Med(Large Language-and-Vision Assistant for BioMedicine)是於2023年由微軟研究團隊開發的一個大型語言與視覺多模態AI模型,專門針對生物醫學領域設計。它旨在實現類似多模態 GPT-4 的能力,讓使用者能夠透過自然語言與生物醫學圖像(如 X 光片、病理切片或醫學圖表)進行對話和互動。
再次提醒,目前 LLaVA-Med 僅供研究用途,不能直接用於臨床醫療診斷。
參考:
LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day
https://github.com/microsoft/LLaVA-Med