Day13：VLM的最新趨勢與進展 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2025 iThome 鐵人賽

DAY 13

0

生成式 AI

VLM系列第 13 篇

Day13：VLM的最新趨勢與進展

17th鐵人賽

2025-09-27 23:47:50

571 瀏覽

分享至

今天的內容參考這一篇：https://huggingface.co/blog/vlms-2025

VLM領域在這一年的發展有顯著變化：模型變得「更小但更強大」、出現「新的架構和能力 (推理、代理、長影片理解等)」、發展出全新的範式如「多模態檢索增強生成 (RAG) 和多模態代理」。

VLM 在模型類型和能力上展現了多項新興趨勢：

任意對任意模型（Any-to-any models）
接受任何模態並輸出任何模態（圖像、文字、音訊）的模型
推理模型（Reasoning models）
可以解決複雜問題的模型
小但功能強大的模型（Smol Yet Capable Models）
參數小於 2B 的模型可以在消費類 GPU 上運行
混合專家作為解碼器（Mixture-of-Experts as Decoders）
通過動態選擇和啟動最相關的子模型（稱為“專家”）來處理任務
Vision Language Action Models
VLA 接受圖像和文本指令，並返回指示機器人直接執行的作的文本。
VLA 通過添加動作和狀態令牌來與物理環境交互和控制物理環境，從而擴展視覺語言模型。

除了新型模型趨勢，既有 VLM 在專業能力也持續演進：

物體檢測、分割、計數：VLM 實現了對傳統電腦視覺任務（例如物件辨識、分割）的「通用化」
多模態安全模型 (Multimodal Safety Models)：VLM 能過濾輸入和輸出，以防止越獄和有害內容輸出（例如暴力、色情）
多模態 RAG (Retrieval Augmented Generation)：目標在解決了複雜文件（通常為PDF）在傳統 RAG 中解析步驟的脆弱性問題。
多模態代理 (Multimodal Agents)： VLM 可以執行許多代理工作流程，從文件聊天到電腦使用，例如能夠理解和操作用戶界面（UI）
影片語言模型 (Video Language Models)

Day12：Florence-2 (2/2)

Day14 ：動手玩Florence-2

系列文

VLM 共 30 篇

目錄

RSS系列文訂閱系列文

2 人訂閱

完整目錄

熱門推薦

{{ item.subject }}

{{ item.channelVendor }} | {{ item.webinarstarted }} |

{{ formatDate(item.duration) }}

直播中

尚未有邦友留言

立即登入留言

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙