第二天：超越文本 — 多模態AI如何改變人機互動？ - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2025 iThome 鐵人賽

DAY 2

生成式 AI

第二天：超越文本 — 多模態AI如何改變人機互動？

17th鐵人賽

301 瀏覽

好的，這是您要求的第二天文章，已轉為 Markdown 格式輸出。

嗨，各位！昨天我們宏觀地看了2025年的AI大格局，聊到了AI的「六感」超人。今天，我們就來深度解剖這位超人的核心技術：多模態AI。

過去的AI，就像一個只能透過簡訊跟你聊天的朋友。你傳文字給他，他回文字給你，很有效率，但總覺得少了點什麼。現在，這位朋友不僅能看你傳來的照片，能聽你的語音訊息，甚至能理解你拍下的影片內容。這不只是能力的增加，更是人機互動模式的根本性轉變。

當我們談論多模態AI，不能不提這兩位業界的明星選手：Google 的 Gemini 2.5 Pro 和 OpenAI 的 GPT-4o。他們不再只是「大型語言模型」（Large Language Model），而是「大型多模態模型」（Large Multimodal Model）。

多模態 AI 的核心魔法：統一的理解框架

你可能會問，這不就是把好幾個AI模組拼在一起嗎？一個處理圖片，一個處理語音，然後再由一個主程式來統整？

如果你這樣想，那就太小看現在的技術了。真正的多模態模型，其精髓在於**「統一的理解框架」**。這兩位明星選手，不是簡單的「串接」，而是將文字、圖片、語音、影片等不同形式的數據，都轉換成同一個「語言」來理解。

想像一下，傳統的AI是學中文、英文、日文，每個語言都分開學；而現在的多模態模型，是直接學習人類共通的「想法」或「概念」，然後再將這些概念轉換成不同的語言來表達。這使得它們能夠更流暢地處理跨領域的任務，例如：

圖像與文字的無縫切換： 丟給它一張你亂糟糟的電腦桌面截圖，GPT-4o 不僅能精準辨識出上面的文件、程式碼檔案，還能幫你整理出一個詳細的 To-Do List，甚至建議你如何歸類這些檔案。
即時語音與視覺互動： 想像你在修理腳踏車，雙手都是油，這時你可以直接對著手機說：「幫我看看這個螺絲該怎麼拆？」然後將手機鏡頭對準螺絲。Gemini 2.5 Pro 不僅能識別出螺絲的類型，還能即時語音指導你：「用扳手逆時針轉動。」這比你看著 YouTube 教學影片自己摸索要方便太多了。
影片內容分析： 給它一段一分鐘的產品宣傳片，它可以立即分析出影片中的情緒、節奏，甚至能幫你生成一個帶有情緒標籤的逐字稿，這對於內容創作者來說，簡直是超級神隊友。

不僅是技術，更是工程師的新挑戰

多模態AI的出現，也對我們這些工程師提出了新的挑戰。過去，我們專注於單一領域的優化，例如文字生成模型的參數調校、影像識別模型的準確率提升。現在，我們需要思考的是，如何設計更複雜的管道，讓不同模態的資料能夠流暢地被處理與整合。

這意味著，未來的AI工程師，不只要懂得模型訓練，更需要具備**「跨模態思維」**。你需要思考，如何將一個物理世界的感測器數據，與一個抽象的自然語言指令，在同一個模型中產生意義的連結。

結語：從工具到夥伴

多模態AI的最終目標，是讓AI從一個「工具」進化為一個「夥伴」。它不再只是被動地接收你的指令，而是能主動地理解你的意圖，甚至能「看」懂你的手勢、你的表情，與你進行更自然、更直觀的互動。

這場革命才剛剛開始，明天我們將繼續探索，AI如何從幻覺百出的「朋友」，變成一個更值得信賴的「夥伴」。敬請期待！