［多模態RAG］第13天：自製多模態RAG模型的挑戰與效果分析

2025 iThome 鐵人賽

DAY 13

AI & Data

從RAG到EmoRAG：讓AI真正聽懂你的心聲系列第 13 篇

17th鐵人賽

XianYun

2025-09-27 23:58:10

177 瀏覽

分享至

項目	自製多模態模型	MSPN	EmoRAG（RAG架構）
基本架構	DeepFace + SentenceTransformer 多模態RAG系統	多模態情感感知網路，融合視覺（ViT）與文本（BERT）特徵，使用交叉注意力與融合變壓器	檢索增強生成系統，主要針對文本情感，利用檢索的相似示例作為提示，集成多個LLM生成情感標籤
輸入形式	圖像（Deepface內的預處理模型--Facenet人臉嵌入128維） + 文本（MiniLM文本嵌入384維）	結合視覺與語言多模態數據	純文本輸入，透過數據庫檢索相關文本示例作為輔助上下文
主要技術	特徵提取後獨立建立FAISS索引，文字和人臉嵌入分別索引，最後融合檢索分數排序	跨模態融合變壓器、多模態情感原型監督對比學習、多模態交叉注意力融合	檢索器（retriever）+多個大型語言模型（generator）+結果融合，無需額外訓練
模型訓練	模型多為預訓練，無端到端訓練，多模態融合在檢索融合階段	有訓練，使用包括對比學習的監督式方法	不需要任務特定額外訓練，依賴預訓練LLM及檢索結果
應用場景	多模態內容檢索與情緒感知，依賴多模態相似度計算支持相似內容的查詢	多模態情感識別與情感感知交互，適合涉及視覺與語言的複雜場景	多語言多標籤文本情感檢測，強調語言感知和跨語言泛化
優勢	靈活簡單，利用現成模型高效提取特徵，易於實現多模態檢索融合	利用視覺與文本信息互補，情感識別更精細、全面	靈活高效，能夠利用大量數據庫信息增強語言模型情感預測，支持多語言且擴展容易
挑戰	如下文	需要多模態數據和訓練計算資源	依賴高質量檢索數據庫和LLM，對檢索準確度敏感
性能與效果（示例）	如下文	MSPN在MVSA數據集準確率約74%（融合視覺+文本）	EmoRAG在SemEval-2025多語言多標籤情感檢測任務中F1-micro最高超過0.80，表現強勁
模型大小	取決於Facenet和MiniLM大小，整體相對適中（Facenet約8-10M參數，MiniLM約22M參數）	ViT和BERT組合的多模態融合模型，參數規模達數百萬至上億	多個超大語言模型組合，參數數十億計
來源參考	AI pair programming	AIVA: An AI-based Virtual Companion for Emotion-aware Interaction 2025	Empaths at SemEval-2025 Task 11: Retrieval-Augmented Approach to Perceived Emotions Prediction 2025

針對預訓練模型拼裝的自製多模態模型

可能面臨的挑戰

多模態數據同步與對齊困難
圖像人臉數據與文本描述的特徵空間差異大，如何有效對齊及融合其特徵以提升檢索質量是一大挑戰。
特徵維度不一致與融合策略選擇
人臉嵌入通常是128維，文本嵌入為384維，直接拼接融合可能導致某一模態權重過大，需合理調整權重或設計更有效融合方法。
人臉檢測與情緒辨識誤差影響下游效果
DeepFace的情緒分析受圖像品質、表情角度等因素影響，誤檢或錯判會導致檢索結果情緒匹配度下降。
檢索精度與召回率的平衡
雖用FAISS高效索引，但如何兼顧檢索速度和結果多樣性，避免過度聚焦少部分特徵相似樣本仍是難點。
擴展性與實時性能挑戰
大規模多模態數據集下索引構建、更新和實時檢索需較強計算資源和工程優化。
多模態信息融合的語意一致性問題
如何確保融合後的檢索結果在情緒語義上維持一致，而非單拼接相似度分數簡單加權。

性能與效果分析

多模態互補帶來檢索增強
融合人臉特徵與文本語義的多視角特徵，能更全面捕捉情感信息，提高檢索結果的上下文相關性和情感匹配度。
基於FAISS的高效向量索引
支持大規模向量快速檢索，具備良好的擴展性和實時響應能力。
靈活性強
可根據應用場景調整視覺與文本的融合權重，支持純文本、純影像及多模態檢索。
依賴預訓練模型表徵能力
人臉特徵與文本嵌入質量直接影響檢索精度。Facenet與all-MiniLM-L6-v2均為輕量高效模型，但深度語義理解和細粒度情緒識別尚有限。
缺乏端到端情感判別能力
多模態特徵提取和索引檢索分離，未搭建起統一的端到端學習架構，可能導致上下游不協同，降低整體效果。

總結

目前實作系統能有效整合視覺及文本特徵，實現多模態情感檢索，具備較好工程實用性及擴展潛力，但挑戰在於多模態融合策略、特徵對齊和情感語意一致性，以及對預訓練模型特徵的依賴，缺乏端到端優化（模型一體成形訓練和調整），可能引起性能瓶頸與檢索效果不穩，需結合更多融合學習方法提升整體性能。

適合小模型的改良方向

可學習的融合層設計
使用輕量級跨模態融合模塊（如簡化版跨模態Transformer、多頭注意力模塊）替代預處理模型拼接，實現動態權重分配。
特徵映射與正規化
增設投影層（如一層小型全連接層），對128維人臉向量和384維文本向量分別映射至同一中間維度（如256維），標準化後進行融合。
L2正規化特徵向量以確保量級一致，避免距離計算偏差。
輕量對比學習
利用小批量內的正負樣本對比學習（如InfoNCE損失）促使同一對象的人臉與文本嵌入靠近，異質樣本分離，加強跨模態特徵對齊。
此對比學習可與固定嵌入模型微調聯合進行，提升相容性。
信心度加權機制
對文本和檢索結果中的人臉相似度分數附加信心度加權，減少誤識別對結果的干擾。
索引結構優化
採用階層FAISS索引（IVF+PQ等），在保持快速檢索的前提下，提升召回與多樣性。
引入檢索後的重排序（reranking）小模型，利用融合特徵對初步檢索結果做細粒度判斷。
動態融合權重調整
設計簡單的權重調節器基於查詢上下文或用戶反饋自動調整圖片與文本融合權重，提高個性化及場景適應能力。