iT邦幫忙

2025 iThome 鐵人賽

DAY 2
0
生成式 AI

VLM系列 第 2

Day 2:VLM應用領域

  • 分享至 

  • xImage
  •  

https://ithelp.ithome.com.tw/upload/images/20250916/20178920m2mfgJTr2s.jpg
圖片來源:huggingface

在Day1 提到了VLM可以完成哪些任務,參考上面這張圖片可以理解得更清楚。

這些任務未來可以具體被應用在哪些領域:

  1. 醫療影像診斷
    現階段深度學習可檢測腫瘤並判識X光或醫學掃描分類結果,而VLM則可自動生成診斷報告,可與醫生病人互動,或是融合影像、病歷或其他數據資料進行推理。
  2. 智慧教學
    未來教師可以上傳圖片自動生成教材與題庫,或是發展個人化學習助教,VLM與學生即時互動,輔助教學。
  3. 法律文件分析
    例如當肇事發生時,VLM能結合現場證據影像、法律條文及保險合約,可以自動生成事故報告,保險案件摘要,並提供法條對照及合規判斷。
  4. 自駕車場景描述
    VLM能對使用者(駕駛或乘客)解釋路況,或與交通規則文本結合,做語言層次的合規判析。
  5. 工業檢測維修
    VLM可以根據設備使用說明製作操作步驟,營運中能結合影像及維修手冊,自動生成故障診斷報告,並指導初階技師維修步驟。
  6. 智慧交通與監控
    VLM可以自動生成場景描述,或是結合影像偵測用路人行為並自動產生事件描述並輔助決策判斷。

此時我們是否會有疑問,電腦視覺發展已久,且針對影像處理任務,現今有許多應用利用深度學習的模型或演算法已有不錯的準確度,在未來有需要轉向使用VLM嗎,例如Day1提到的影像物件辨識任務,這幾年YOLO版本不斷的演進,目前在物件辨識的效能及準確度上都有不錯的發展,若這些應用並不需要語言理解,是否VLM並無法發揮更好的效果,也不需要轉向VLM應用? 這部分我需要再思考,可能等到我對VLM理解功力較深時候,最後幾天再來討論我的看法。

不過,不容置疑的是,當領域應用需要「影像 + 語言」跨模態整合,或需要人類可解釋輸出時,則使用VLM可更加智慧且能開發更廣泛的功能。


------------------------- 這是分隔線,以下純屬閒聊,可能與主題無關 ----------------------

這兩天匆忙地開始發文,只能先以過去僅有的VLM概念撐場面,有點乾....
預告 Day3: VLM的架構; Day4:如何訓練VLM,為什麼VLM可以看圖說話; Day5:目前有哪些VLM模型,開始動手做。


上一篇
Day 1 - 什麼是VLM
系列文
VLM2
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言