Day 26 . AI的多模態模型

2025 iThome 鐵人賽

DAY 26

生成式 AI

30天從不認識生成式AI到好像稍微可能有點熟悉的過程系列第 26 篇

17th鐵人賽

jiaofish

團隊週三遜咖日

2025-10-03 15:13:08

227 瀏覽

分享至

今天要介紹的是多模態模型（Multimodal），他可以讓AI能夠同時理解並生成文字、圖像、聲音、影片等，讓我們使用起來可以更順手。

多模態模型是啥?
多模態模型是能同時處理或對齊多種資料型態文字、圖像、音訊、影片的模型。
它學會把不同型態的資訊投射到同一個「語意空間」，因此他有能力回答「跟我解釋一下圖中在說什麼？」或「把這段音訊轉文字並摘要」之類的問題。

多模態可以做什麼？
看圖問答 : 看一張圖，用文字回答問題
圖片理解並文字生成 : 圖片描述、替代文字
將文字轉換成圖片或影片 : 根據描述生成影像或短片
將音訊轉換成文字 : 語音轉寫、會議逐字稿
多步任務 : 混搭多模態流程
Agent式工具調用 : 看圖表後自動產生查詢

多模態的典型架構
以圖文多模態為例的話，通常是
1.Vision Encoder：把圖片轉成向量特徵（patch/embedding）。
2.對齊層（Projection/Adapter）：把影像向量對齊語言向量空間。
3.LLM 解碼：語言模型讀取對齊後的向量，生成回覆。

如果想要實作看看
文字×圖片：
選擇一個可用的Vision+LLM介面（雲端或開源），把「圖片bytes/連結」+「文字指令」送入 API。
步驟：上傳收據照片 → 擷取店名/金額 → 轉成 JSON → 匯入試算表。
文字×音訊：
先用語音轉文字取得 transcript，再把文字丟給 LLM 做摘要或行動項。
步驟：會議錄音 → 摘要 → 自動產生待辦清單。

評估與風險
我前幾天的文章有說到，其實就差不多的東西，有興趣的可以點右上角的資訊卡收看。