今天,我們要深入一篇 2023 年的綜述 "A Survey of Deep Learning-Based Multimodal Emotion Recognition: Speech, Text, and Face"[1]。
專注三個核心問題:
這篇論文回顧了深度學習在多模態情緒識別(MER)領域的最新進展,特別關注語音、文本和臉部表情的融合。
研究範圍界定:
分析維度設計:
1.數據集分析
2.特徵提取方法
3.融合策略分類
4.評估指標
以融合方法為核心的分類體系
論文將 MER 方法分為兩大類:
從 HCI 角度審視技術
明確把 MER 放進人機互動應用場景,連結真實產品需求[1]。
表 1. 多模態情緒識別常用資料集
Adapted from Lian et al. (2023), Table 1. Reorganized and summarized.[1]
Dataset (Year) | #Samples | Language(s) | Type | Recording Env. | Emotion Labels | Data Source | #Speakers |
---|---|---|---|---|---|---|---|
IEMOCAP (2008) | 10,039 | English | Acted & Natural | Lab | Discrete: anger, happiness, sadness, disgust, fear, surprise, frustration, excited, neutral; Continuous: VAD | Recorded | 10 |
YouTube (2011) | 47 | English | Natural | In the wild | Discrete: positive/negative/neutral | YouTube | 47 |
MOUD (2013) | 498 | Spanish | Natural | In the wild | Discrete: positive/negative/neutral | YouTube | 80 |
ICT-MMMO (2013) | 370 | English | Natural | In the wild | Discrete: strongly neg. → strongly pos. (5-level) | YouTube/ExpoTV | 370 |
CMU-MOSI (2016) | 2,199 | English | Natural | In the wild | Discrete: positive/negative | YouTube | 89 |
NNIME (2017) | 6,701 | Chinese | Natural | Lab | Discrete: anger, happiness, disgust, sadness, fear, neutral, surprise; Continuous: VA | Recorded | 44 |
CMU-MOSEI (2018) | 23,453 | English | Natural | In the wild | Discrete: anger, happiness, disgust, sadness, fear, surprise | YouTube | 1,000 |
OMG (2018) | 7,371 | English | Acted & Natural | In the wild | Discrete emotions + Continuous VA | YouTube | N/A |
MELD (2019) | 13,708 | English | Acted | In the wild | (1) joy, sadness, anger, fear, disgust, surprise, neutral; (2) pos/neg/neu | TV series Friends | 407 |
SEWA (2019) | 2,562 | Multiple (zh/en/de/…) | Natural | In the wild | Continuous: VA | Recorded | 398 |
CH-SIMS (2020) | 2,281 | Chinese | Acted | In the wild | 5-class (neg → pos) | Movies/TV | N/A |
CH-SIMS v2.0 (2022) | 4,402 | Chinese | Acted | In the wild | 5-class (neg → pos) | Movies/TV/etc. | N/A |
語音特徵提取的演進:
階段 1:手工特徵主導(2010 年以前)
階段 2:深度特徵興起(2015-2023)
文本特徵提取的演進:
階段 1:詞袋模型(BoW)
階段 2:早期詞嵌入(2013-2017)
階段 3:上下文嵌入(2018-)
階段 4:情緒特定嵌入
臉部特徵提取的演進:
傳統方法:
深度學習方法:
模型無關融合方法:
1. 早期融合(Early Fusion)
2. 晚期融合(Late Fusion)
3. 混合融合(Hybrid Fusion)
中間層融合方法:
1. 簡單拼接融合(Simple Concatenation Fusion)
2. 話語級互動融合(Utterance-Level Interaction Fusion)
3. 細粒度互動融合(Fine-Grained Interaction Fusion)
基於對齊的詞級特徵:
基於未對齊特徵:
融合方法性能對比發現:
特徵提取偏好:
融合策略偏好:
數據集偏好:
當前挑戰:
數據集對深度學習模型的性能和泛化能力至關重要。理想的數據集應具有代表性、多樣性和足夠規模,同時保持高質量標註
核心問題:
未來研究方向:
1.半監督和無監督學習
2.自動標註技術
3.跨語言和跨文化數據集
4.多場景數據收集
當前挑戰:
融合來自不同模態的數據進行情緒識別是另一個困境。不同模態間的時間不對齊和特徵異質性使融合過程複雜
信息理論的應用機會:
基於熵的融合策略:
通過熵量化各模態的信息內容,評估每個數據源的不確定性或可預測性。這可以識別提供實質信息的模態,同時識別引入噪音或冗餘的模態
互信息的運用:
使用互信息等信息理論概念,可以闡明模態間的相互依賴程度。這些洞察將促進更和諧、更明智的融合過程,確保模態間的關係和協同作用得到最優利用
未來研究方向:
1.自適應融合機制
2.層次化融合架構
3.跨模態對齊技術
4.可解釋的融合方法
當前挑戰:
儘管提出了許多優秀的 MER 模型,但它們通常在依賴非現實場景的特定數據集上訓練,難以適應工業應用
未來研究方向:
1.領域自適應技術
2.元學習方法
3.多任務學習
4.持續學習機制
當前挑戰:
為了獲得更高準確率和更好結果,深度學習模型通常需要大量數據和計算資源進行訓練。然而,在 MER 情境下獲取大量標註數據並進行模型訓練是一項艱鉅且昂貴的工作
未來研究方向:
1.模型壓縮技術
2.高效架構設計
3.邊緣計算部署
4.數據效率學習
當前挑戰:
MER 是一種廣泛分析各種數據模態(包括語音、文本和臉部線索)來辨識個人情緒狀態的技術。這種深度分析通常涉及處理高度個人化和私密的情緒和經歷細節
核心問題:
未來研究方向:
1.隱私保護技術
2.倫理框架建立
3.公平性研究
4.透明度和可解釋性
技術選型:語音用 Wav2Vec/WavLM,文本用 BERT 系列;融合從晚期基線起步,逐步導入細粒度互動與互信息方法。
方法論:系統性思考(資料→特徵→融合→評估)、演進視角、批判分析、面向未來的研究設計。
[1] H. Lian, C. Lu, S. Li, Y. Zhao, C. Tang, and Y. Zong, “A survey of deep learning-based multimodal emotion recognition: Speech, text, and face,” Entropy, vol. 25, no. 10, Art. no. 1440, 2023, doi: 10.3390/e25101440.
註:Entropy 為 MDPI 期刊,使用 article number;本篇為 1440。