iT邦幫忙

2025 iThome 鐵人賽

DAY 13
0
生成式 AI

VLM系列 第 13

Day13:VLM的最新趨勢與進展

  • 分享至 

  • xImage
  •  

今天的內容參考這一篇:https://huggingface.co/blog/vlms-2025

VLM領域在這一年的發展有顯著變化:模型變得「更小但更強大」、出現「新的架構和能力 (推理、代理、長影片理解等)」、發展出全新的範式如「多模態檢索增強生成 (RAG) 和多模態代理」。

  • VLM 在模型類型和能力上展現了多項新興趨勢:
  1. 任意對任意模型 (Any-to-any models)
    接受任何模態並輸出任何模態(圖像、文字、音訊)的模型
  2. 推理模型 (Reasoning models)
    可以解決複雜問題的模型
  3. 小但功能強大的模型 (Smol Yet Capable Models)
    參數小於 2B 的模型可以在消費類 GPU 上運行
  4. 混合專家作為解碼器 (Mixture-of-Experts as Decoders)
    通過動態選擇和啟動最相關的子模型(稱為“專家”)來處理任務
  5. Vision Language Action Models
    VLA 接受圖像和文本指令,並返回指示機器人直接執行的作的文本。
    VLA 通過添加動作和狀態令牌來與物理環境交互和控制物理環境,從而擴展視覺語言模型。
  • 除了新型模型趨勢,既有 VLM 在專業能力也持續演進:
  1. 物體檢測、分割、計數:VLM 實現了對傳統電腦視覺任務(例如物件辨識、分割)的「通用化」
  2. 多模態安全模型 (Multimodal Safety Models):VLM 能過濾輸入和輸出,以防止越獄和有害內容輸出(例如暴力、色情)
  3. 多模態 RAG (Retrieval Augmented Generation):目標在解決了複雜文件(通常為PDF)在傳統 RAG 中解析步驟的脆弱性問題。
  4. 多模態代理 (Multimodal Agents): VLM 可以執行許多代理工作流程,從文件聊天到電腦使用,例如能夠理解和操作用戶界面(UI)
  5. 影片語言模型 (Video Language Models)

上一篇
Day12:Florence-2 (2/2)
下一篇
Day14 :動手玩Florence-2
系列文
VLM14
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言