iT邦幫忙

2025 iThome 鐵人賽

DAY 21
0
生成式 AI

VLM系列 第 21

Day 21:大型語言模型的視覺語言任務能力

  • 分享至 

  • xImage
  •  

目前領先的 SOTA(State-of-the-Art,最先進)大型語言模型幾乎都已轉型為多模態模型,具備強大的視覺(Vision)處理能力。

GPT

GPT 不僅具備 VLM 的多視覺語言任務能力,它更是當前最強大、最通用的視覺語言模型(VLM/VLLM)之一。

我們在前面提到VLM(Vision-Language Model)是專注於「影像及文字」的理解與生成,例如 CLIP、BLIP-2、LLaVA、Florence-2、PaliGemma、Qwen-VL 等,它們主要處理圖像及文字,並以文字作為輸出。

OpenAI 的 GPT-4 及其最新的迭代模型,例如 GPT-4o (o 代表 "omni",全能),都是大型多模態模型(Multimodal Large Language Models, MLLM),不僅具備 VLM 的多視覺語言任務能力,而且它被設計為一個能夠處理多種模態(文本、圖像、音訊)的「全能」模型。也就是說不只理解影像,還能即時處理 語音、文字、影像、影片、聲音輸入,並同時輸出多模態結果,是 「Any-to-Any」 模型。

Gemini

Gemini 2.5 Pro 和 Gemini 2.5 Flash 都具備強大的視覺理解能力。其中Pro版本可以處理圖像、音頻、文字、視頻等多模態輸入與支援長上下文(可達百萬 token)。

Grok

xAI 已經推出了具有視覺功能的 Grok Vision,允許用戶上傳圖片、截圖、文件和圖表進行分析和提問。

Claude

Claude 3 Opus, Sonnet, & Haiku 這些模型系列都具備視覺處理能力,它們能夠處理圖像、圖表和文件,並進行高水準的視覺推理,Anthropic 特別強調其模型的安全性,在處理敏感或有偏見的視覺內容時會更加謹慎。


這些SOTA大型語言模型LLM若也具備視覺語言能力,與一些SOTA 通用性VLM比較,應該如何選擇模型

在 2025 年,SOTA(State-of-the-Art)多模態大型語言模型(LLM,如 GPT-4o、Gemini 2.5、Grok 4、Claude 4)已廣泛整合視覺語言能力,能處理圖像、視頻與文本的交互任務。相較之下,SOTA 通用視覺語言模型(VLM,如 InternVL、Qwen2.5-VL、LLaVA、CLIP 變體、Flamingo、PaLI、BLIP-2)有些我們在前面有介紹過,它們更專注於視覺相關任務,強調高效的圖文對齊與生成。這些模型在基準測試(如 MMMU、多模態推理;VQA、視覺問答;VideoMME、視頻理解)上競爭激烈,但選擇需依據具體需求權衡通用性、性能與部署。

需考慮的因素:

  • 任務需求:應用偏向是廣泛、推理密集,若聚焦視覺專精
  • 性能及基準:參考2025 年最新基準(如 MMMU、MathVista、MMBench、Open VLM Leaderboard)和模型特性,比較代表性模型外
  • 可用性及成本:例如是否開源、易整合(API 快速)、費用等。
  • 資源與部署:選輕量 VLM 如 LLaVA可以在邊緣裝置佈署,推理快。多模態LLM適合雲端,模型參數大,需強大硬體。

上一篇
Day 20 :VLM 在自動駕駛的應用-GeoVLM
系列文
VLM21
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言