Day 5｜多模態 AI：讓機器同時「看、聽、說」

2025 iThome 鐵人賽

DAY 5

生成式 AI

17th鐵人賽

309 瀏覽

在過去，AI 系統大多只能處理單一形式的資料，例如文字或圖片。但人類的世界是多感官的，我們能同時看影像、聽聲音、理解語境，再做出反應。多模態 AI（Multimodal AI），正是讓機器也具備這種跨模態的理解與生成能力。

什麼是多模態 AI？

單模態 AI：只能處理一種資料，例如 GPT-2（文字）、ResNet（影像）。

多模態 AI：能同時理解或生成多種形式的資訊（文字、圖片、聲音、影片）。

例如：輸入一張照片 + 一段問題 → AI 回答圖片中的內容。

或是：AI 根據文字生成圖片、影片或音樂。

為什麼多模態很重要？

更貼近人類的思考方式：我們不是只用文字或影像，而是多感官整合。

應用更廣泛：智慧客服能同時看訂單圖片與聽語音描述；醫療 AI 可以同時分析病人的檢查影像與病歷文字。

人機互動更自然：像 ChatGPT、Gemini、Claude 等新一代 AI，已經能「看圖說話」或「聽懂語音」。

代表性應用

圖片問答：你上傳一張照片，AI 幫你描述內容或回答問題。

AI 繪圖：輸入文字 → AI 生成圖片（如 DALL·E、Stable Diffusion）。

影片生成：輸入腳本 → AI 自動生成影片。

語音助理升級：AI 不只聽懂聲音，還能根據視覺環境給建議（未來的智慧眼鏡）。

未來發展

跨模態融合更深：不只是「文字 + 圖片」，而是「文字 + 圖片 + 聲音 + 動作數據 + 感測器資料」。

即時應用：自動駕駛、智慧工廠、醫療診斷，都需要多模態 AI。

更強的人機協作：多模態 AI 將會是 Copilot 系統的核心，像一個真正的「數位同事」。

系列文

AI Development 共 19 篇

0 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

立即登入留言

IT邦幫忙