為什麼需要談?
很多關鍵訊息其實長在圖表、表格、介面截圖裡;硬塞成文字會失真、也不精準。
白話定義
多模態=模型能同時理解/關聯不同型態訊號(文字、圖片、語音、表格),從上下文中拼出答案。
常見情境
圖表解讀、UI 流程說明、流程圖/架構圖摘要、表格對比。
常見誤解
「多模態一定更好」→ 若問題本質是規範/法條,文字更精準,圖片只是畫蛇添足。
「有圖就萬事 OK」→ 圖若無標註與說明,只會增加誤讀。
實用心法
三問決策:
關鍵資訊是否「只有圖片/表格才看得出來」?
是否有結構化替代(原表格、CSV、數據欄位)?
需要「看出關係與趨勢」還是「剪貼事實」?
文字對齊:每張圖配一句「我要你看到什麼」,再配「一行結論」。
表格優先:能用表格就別只貼圖片,便於檢索與引用。
檢核清單
每張圖/表是否有「重點觀察點」與「一句話要義」?
圖中數字是否用文字再次確認,避免解讀偏差?
是否避免用圖片取代可結構化的資料?
小結
多模態的目的不是炫,而是讓訊息更準確傳遞。能結構化,就別只貼圖。