視覺語言模型(Vision Language Model, VLM) 是融合了電腦視覺(Computer Vision)和自然語言處理 (NLP) 演算法的人工智慧(AI)模型。
VLM也是一種生成式模型,但與僅能處理文字資料的大型語言模型(LLM)不同,VLM將LLM的處理文字的能力擴展到視覺領域,使用者輸入可以是圖像或文字,而AI系統能夠「看懂」圖像並「理解」文字指令,進而實現雙向的溝通與內容生成。
VLM 的應用場景,包括:
AI 若要「理解世界」,只有文字是不夠的,還需要感知能力,電腦視覺就像是 AI 的「眼睛」,透過影像與影片資料,讓AI能辨識人臉、物體、文字、場景,沒有視覺,AI 在許多真實場景中的應用會受到極大限制,相較於目前已相對成熟及應用廣泛LLM,例如我們熟知的ChatGPT、Gemini等,VLM 仍在發展階段,且由於要處理的影像資料較複雜,需要的資源也較高,尚有許多挑戰,但成長非常快速,已持續發展出許多模型,相信未來當它更精準、更即時,VLM會因為在跨模態的能力,使AI有更多元的應用。
接下來的30天,就和我一起來瞭解 VLM 的技術原理、測試各家模型及實作。
感謝 未知作者 的精彩分享!
AI 相關的技術分享總是令人興奮,期待更多深入的內容。
實際的程式碼範例很有幫助,讓理論更容易理解。
遇到的問題和解決方案分享很實用,相信很多人都會遇到類似的情況。
也歡迎版主有空參考我的系列文「南桃AI重生記」:https://ithelp.ithome.com.tw/users/20046160/ironman/8311
如果覺得有幫助的話,也歡迎訂閱支持!