【從夜市烤肉到 AI 多模態融合 | Early Fusion v.s. Late Fusion 的故事】

17th鐵人賽

abc11032203

2025-09-24 21:36:03

93 瀏覽

分享至

__大家應該都有過這樣的經驗：走在夜市裡，烤肉香氣撲鼻而來。你眼睛看到架上的肉冒著煙、鼻子聞到濃烈的香味、耳朵聽見油滋滋的聲音，這時候，你要不要買一串烤肉？

其實這就是一個「多模態決策」的過程，大腦可能有兩種方式：
一種是把所有感官訊號一次丟進去思考，然後得到結論——這就像 Early Fusion
另一種是先分別判斷：看起來如何、聞起來如何、聲音聽起來如何，最後才整合成決策 —— 這就像 Late Fusion
接下來，我就用技術專員的角度，帶你走一遍這兩種策略在 AI 世界裡的差異 !

Early Fusion：所有線索丟進同一個「黑盒子」

在 Early Fusion 中，不同模態的資料——例如聲音特徵（MFCCs）加上臉部關鍵點——會被直接拼接在一起，作為同一個模型的輸入，模型從一開始就「同時學習」跨模態的關聯 !

故事比喻：
就像是「火鍋」，所有食材一開始就丟進去煮，味道確實會融合，但如果有一塊壞掉的肉，整鍋湯就毀了。

圖片來源:https://sl.bing.net/eOH7liiPsjs

Late Fusion-各自評分，最後投票

在 Late Fusion 中，各模態會先用獨立的模型處理。
例如：
影像模態：用 CNN 判斷表情
聲音模態：用 RNN 處理語音特徵
等各自得出結果後，再透過加權平均、投票或另一個小型 MLP 進行融合，產生最終判斷。

優點：
容錯性高，如果聲音模態失效，影像模態仍能給出判斷。
模型設計靈活，可以針對不同模態使用最適合的演算法。
缺點：
容易忽略不同模態之間的細節互動。舉例來說，單看臉笑可能是開心，但若聲音中帶有怒意，Early Fusion 會捕捉到這種矛盾，而 Late Fusion 可能就錯過了。

故事比喻：
這就像「評審團制度」。影像專家、聲音專家、文字專家各自打分數，最後由主持人整合結果。好處是容錯率高，但缺點是專家們之間的互動細節容易被忽略 !

實務案例：從情緒偵測到遙感影像

情緒偵測
Early Fusion：將語音 MFCC 特徵與臉部關鍵點拼接，直接用一個模型判斷情緒。
Late Fusion：語音模型判斷「生氣 80%」，影像模型判斷「生氣 60%」，最後融合後得到「生氣」。

遙感影像（多光譜 + LiDAR 語義分割）
Early Fusion：把光譜與 LiDAR 的數據直接合併成多通道輸入。
Late Fusion：各自跑影像與深度學習，最後融合輸出，處理複雜的地物語義分割。

市場觀點與趨勢

根據 Mordor Intelligence 報告，全球多模態 AI 市場在 2025 年將達到 29.9 億美元，2030 年預計突破 108.1 億美元，年均複合成長率高達 29.29%。其中，北美依然是最大市場，但亞太地區是成長最快的區域。
而 Nvidia CEO Jensen Huang 曾說過：
“There’s a lot of information in life that has to be grounded by video, grounded by physics. So that’s the next big thing.”