iT邦幫忙

2025 iThome 鐵人賽

DAY 26
0

今天要介紹的是多模態模型(Multimodal),他可以讓AI能夠同時理解並生成文字、圖像、聲音、影片等,讓我們使用起來可以更順手。


多模態模型是啥?
多模態模型是能同時處理或對齊多種資料型態文字、圖像、音訊、影片的模型。
它學會把不同型態的資訊投射到同一個「語意空間」,因此他有能力回答「跟我解釋一下圖中在說什麼?」或「把這段音訊轉文字並摘要」之類的問題。


多模態可以做什麼?
看圖問答 : 看一張圖,用文字回答問題
圖片理解並文字生成 : 圖片描述、替代文字
將文字轉換成圖片或影片 : 根據描述生成影像或短片
將音訊轉換成文字 : 語音轉寫、會議逐字稿
多步任務 : 混搭多模態流程
Agent式工具調用 : 看圖表後自動產生查詢


多模態的典型架構
以圖文多模態為例的話,通常是
1.Vision Encoder:把圖片轉成向量特徵(patch/embedding)。
2.對齊層(Projection/Adapter):把影像向量對齊語言向量空間。
3.LLM 解碼:語言模型讀取對齊後的向量,生成回覆。


如果想要實作看看
文字×圖片
選擇一個可用的Vision+LLM介面(雲端或開源),把「圖片bytes/連結」+「文字指令」送入 API。
步驟:上傳收據照片 → 擷取店名/金額 → 轉成 JSON → 匯入試算表。
文字×音訊
先用語音轉文字取得 transcript,再把文字丟給 LLM 做摘要或行動項。
步驟:會議錄音 → 摘要 → 自動產生待辦清單。


評估與風險
我前幾天的文章有說到,其實就差不多的東西,有興趣的可以點右上角的資訊卡收看。


上一篇
Day 25 . 生成式 AI 的倫理與社會影響
下一篇
Day 27 . AI Agent 與自主系統
系列文
30天從不認識生成式AI到好像稍微可能有點熟悉的過程27
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言