Day 19｜多模態觀念：不是所有問題都該用文字解

2025 iThome 鐵人賽

DAY 19

生成式 AI

生成式 AI 30 天觀念導讀：不寫程式也看懂的實戰思維系列第 19 篇

17th鐵人賽

2025-10-03 22:31:10

82 瀏覽

分享至

為什麼需要談？
很多關鍵訊息其實長在圖表、表格、介面截圖裡；硬塞成文字會失真、也不精準。

白話定義
多模態＝模型能同時理解/關聯不同型態訊號（文字、圖片、語音、表格），從上下文中拼出答案。

常見情境
圖表解讀、UI 流程說明、流程圖/架構圖摘要、表格對比。

常見誤解

「多模態一定更好」→ 若問題本質是規範/法條，文字更精準，圖片只是畫蛇添足。

「有圖就萬事 OK」→ 圖若無標註與說明，只會增加誤讀。

實用心法

三問決策：

關鍵資訊是否「只有圖片/表格才看得出來」？

是否有結構化替代（原表格、CSV、數據欄位）？

需要「看出關係與趨勢」還是「剪貼事實」？

文字對齊：每張圖配一句「我要你看到什麼」，再配「一行結論」。

表格優先：能用表格就別只貼圖片，便於檢索與引用。

檢核清單

每張圖/表是否有「重點觀察點」與「一句話要義」？

圖中數字是否用文字再次確認，避免解讀偏差？

是否避免用圖片取代可結構化的資料？

小結
多模態的目的不是炫，而是讓訊息更準確傳遞。能結構化，就別只貼圖。

Day 18｜可溯源輸出：引用不是裝飾，是風險控管

Day 20｜Agent 思維：讓 AI 按流程辦事，而不是亂跑

系列文

生成式 AI 30 天觀念導讀：不寫程式也看懂的實戰思維共 25 篇

RSS系列文訂閱系列文

0 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19864 篇

完賽人數

529 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

生成式 AI 30 天觀念導讀：不寫程式也看懂的實戰思維系列 第 19 篇