iT邦幫忙

2025 iThome 鐵人賽

DAY 27
0
AI & Data

感知你的動作與情緒:深度學習在人機互動的應用系列 第 27

Day 27 | 多模態情緒識別:從研究綜述看實驗設計與未來方向

  • 分享至 

  • xImage
  •  

前言

今天,我們要深入一篇 2023 年的綜述 "A Survey of Deep Learning-Based Multimodal Emotion Recognition: Speech, Text, and Face"[1]。

專注三個核心問題:

  1. Methods:研究者用了什麼方法來分析這個領域?
  2. Findings:他們發現了什麼重要趨勢和結論?
  3. Implications:對未來研究者有什麼建議和啟發?

Methods

系統性文獻回顧架構

這篇論文回顧了深度學習在多模態情緒識別(MER)領域的最新進展,特別關注語音、文本和臉部表情的融合。

研究範圍界定

  • 模態範圍:語音、文本、臉部表情
  • 技術焦點:深度學習方法
  • 應用領域:人機互動(HCI)

分析維度設計

1.數據集分析

  • 回顧 12 個主要 MER 數據集
  • 分析數據集特性:樣本數、模態、標註方式
  • 識別數據集的優勢和限制

2.特徵提取方法

  • 語音特徵:手工特徵 vs 深度特徵
  • 文本特徵:從 BoW 到 BERT 的演進
  • 臉部特徵:傳統方法 vs CNN 方法

3.融合策略分類

  • 模型無關融合:早期融合、晚期融合、混合融合
  • 中間層融合:簡單拼接、話語級互動、細粒度互動

4.評估指標

  • 分類指標:準確率、F1 分數
  • 回歸指標:MSE、相關係數

分析方法的創新性

以融合方法為核心的分類體系

論文將 MER 方法分為兩大類:

  1. Model-Agnostic Fusion(模型無關融合)
  2. Intermediate Layer Fusion(中間層融合)
    比傳統的「早期/晚期融合」更符合深度學習脈絡。

從 HCI 角度審視技術
明確把 MER 放進人機互動應用場景,連結真實產品需求[1]。


Findings

數據集的演進趨勢

表 1. 多模態情緒識別常用資料集
Adapted from Lian et al. (2023), Table 1. Reorganized and summarized.[1]

Dataset (Year) #Samples Language(s) Type Recording Env. Emotion Labels Data Source #Speakers
IEMOCAP (2008) 10,039 English Acted & Natural Lab Discrete: anger, happiness, sadness, disgust, fear, surprise, frustration, excited, neutral; Continuous: VAD Recorded 10
YouTube (2011) 47 English Natural In the wild Discrete: positive/negative/neutral YouTube 47
MOUD (2013) 498 Spanish Natural In the wild Discrete: positive/negative/neutral YouTube 80
ICT-MMMO (2013) 370 English Natural In the wild Discrete: strongly neg. → strongly pos. (5-level) YouTube/ExpoTV 370
CMU-MOSI (2016) 2,199 English Natural In the wild Discrete: positive/negative YouTube 89
NNIME (2017) 6,701 Chinese Natural Lab Discrete: anger, happiness, disgust, sadness, fear, neutral, surprise; Continuous: VA Recorded 44
CMU-MOSEI (2018) 23,453 English Natural In the wild Discrete: anger, happiness, disgust, sadness, fear, surprise YouTube 1,000
OMG (2018) 7,371 English Acted & Natural In the wild Discrete emotions + Continuous VA YouTube N/A
MELD (2019) 13,708 English Acted In the wild (1) joy, sadness, anger, fear, disgust, surprise, neutral; (2) pos/neg/neu TV series Friends 407
SEWA (2019) 2,562 Multiple (zh/en/de/…) Natural In the wild Continuous: VA Recorded 398
CH-SIMS (2020) 2,281 Chinese Acted In the wild 5-class (neg → pos) Movies/TV N/A
CH-SIMS v2.0 (2022) 4,402 Chinese Acted In the wild 5-class (neg → pos) Movies/TV/etc. N/A

特徵提取方法的演進

語音特徵提取的演進

階段 1:手工特徵主導(2010 年以前)

  • 韻律特徵:基頻(F0)、能量、語速
    • 發現:激動情緒(如憤怒)時 F0 更高且範圍更廣,抑鬱情緒(如悲傷)時 F0 更低且範圍更窄
  • 音質特徵:共振峰、諧波噪音比(HNR)、抖動(Jitter)、閃爍(Shimmer)
  • 頻譜特徵:MFCC、LPCC 等

階段 2:深度特徵興起(2015-2023)

  • 自監督學習模型
    • wav2vec:直接從原始波形訓練提取深度特徵
    • wav2vec 2.0:性能和泛化能力更優
    • HuBERT:採用更直接的預測損失
    • WavLM:第一個適用於廣泛任務的通用語音預訓練模型,包括說話者識別、語音識別和情緒識別

文本特徵提取的演進

階段 1:詞袋模型(BoW)

  • 優勢:簡單易懂
  • 限制:忽略詞序和語法關係,丟失上下文信息

階段 2:早期詞嵌入(2013-2017)

  • word2vecGloVe:基於句法上下文訓練,但假設每個詞有唯一向量表示,忽略多義性

階段 3:上下文嵌入(2018-)

  • ELMo:產生深度上下文化詞嵌入,捕捉基於上下文的語義變化
  • BERT:採用雙向 Transformer 編碼器,同時考慮左右上下文來預測下一個詞

階段 4:情緒特定嵌入

  • SSWE:在詞級別整合情緒標籤的情緒特定詞嵌入
  • Emo2Vec:將情緒語義嵌入到詞級別的固定大小向量表示

臉部特徵提取的演進

傳統方法

  • LBP、AAM、ASM、SIFT、HOG、Gabor 小波變換
  • 限制:需要人工特徵提取,耗時且可能遺漏重要語義信息

深度學習方法

  • 3D-CNN:提取時空特徵,適用於動作識別和動態場景識別
  • STC-LSTM:結合 3DCNN、T-LSTM 和 C-LSTM,分別用於提取時空特徵、維持時間動態和建模多層次特徵

融合方法的演進與對比

模型無關融合方法

1. 早期融合(Early Fusion)

  • 原理:在輸入層將不同模態特徵拼接
  • 優勢:簡單,計算複雜度低,能夠早期建立模態間關聯
  • 限制
    • 簡單拼接無法獨立處理各模態的獨特特徵
    • 無法有效過濾模態間的衝突或冗餘信息
    • 時間同步問題嚴重

2. 晚期融合(Late Fusion)

  • 原理:各模態獨立訓練模型,在決策層融合預測結果
  • 優勢
    • 各模態可使用最適合的分類器
    • 不需要考慮時間同步問題
    • 更簡單靈活
  • 限制:假設各模態獨立,忽略模態間互動信息

3. 混合融合(Hybrid Fusion)

  • 原理:結合早期和晚期融合的優勢
  • 範例:Wöllmer 等人使用 BLSTM 在特徵層融合音頻和視覺特徵,然後在決策層與文本分類器結果融合
  • 優勢:既能捕捉早期特徵互動,又保留晚期獨立分類的優勢
  • 挑戰:複雜度增加,計算需求提升

中間層融合方法

1. 簡單拼接融合(Simple Concatenation Fusion)

  • 核心思想:在深度網絡中間層進行特徵拼接
  • 進階方法
    • MMIM(多模態信息最大化):通過最大化互信息過濾模態特定噪音,保留模態不變內容
    • MMMIE:基於互信息最大化、最小化和身份嵌入
    • MIB(多模態信息瓶頸):學習給定任務的最小充分表示,最大化表示與目標間的互信息,同時約束表示與輸入數據間的互信息

2. 話語級互動融合(Utterance-Level Interaction Fusion)

  • TFN(張量融合網絡):使用三折笛卡爾積建模單模態、雙模態和三模態互動
  • LMF(低秩多模態融合):改進 TFN 的訓練和測試效率
  • 後續改進:T2FN、HFFN、MRRF、STP 等

3. 細粒度互動融合(Fine-Grained Interaction Fusion)

基於對齊的詞級特徵

  • GME-LSTM(A):門控多模態嵌入緩解有噪音模態時的融合困難,帶時間注意力的 LSTM 在詞級別進行細粒度融合
  • MARN(多注意力循環網絡):包含混合記憶 LSTHM 和多注意力塊 MAB,用於發現跨模態動態
  • MFN(記憶融合網絡):使用 LSTM 建模模態內互動,使用 DMAN 實現細粒度模態間互動

基於未對齊特徵

  • MulT(多模態 Transformer):使用跨模態注意力關注未對齊多模態序列間的細粒度互動
  • MICA:在模態不變空間學習跨模態互動,有效解決未對齊特徵的序列匹配問題
  • PMR:依賴跨模態 Transformer,通過消息中樞促進模態間信息交換

融合方法性能對比發現

  • 細粒度互動融合因能捕捉模態間細微互動而受歡迎
  • 決策層融合通常表現優於特徵層融合(在當前數據集和模型下)
  • 基於互信息的方法能有效提升融合效果

當前最佳實踐

特徵提取偏好

  • 語音:多數使用 COVAREP 和 openSMILE 工具,但越來越多採用 Wav2Vec 等深度學習方法
  • 文本:從 word2vec/Glove 演進到 BERT/RoBERTa
  • 臉部:3D-CNN、FACET、OpenFace,以及 DenseNet、MTCNN、Fabnet 等新技術

融合策略偏好

  • 細粒度互動融合最受歡迎,因能促進基於細微特徵的模態間詳細互動

數據集偏好

  • IEMOCAP 是主流選擇(因標註準確且歷史悠久)
  • MELDYouTube 等新數據集越來越受關注

Implications

數據集的規模、標註和多樣性

當前挑戰
數據集對深度學習模型的性能和泛化能力至關重要。理想的數據集應具有代表性、多樣性和足夠規模,同時保持高質量標註

核心問題

  • 多模態數據的標註需要專業人員主觀評估文本、語音和圖像
  • 這個過程既耗時又昂貴
  • 構建高質量、大規模、多樣化的 MER 數據集是一項挑戰性任務

未來研究方向

1.半監督和無監督學習

  • 利用大量未標註數據
  • 範例:CH-SIMS v2.0 的 10,000+ 無監督樣本
  • 減少昂貴的人工標註需求

2.自動標註技術

  • 開發基於深度學習的自動標註工具
  • 結合專家驗證確保質量
  • 大幅降低標註成本

3.跨語言和跨文化數據集

  • 擴展到更多語言(不只英語和中文)
  • 考慮文化差異對情緒表達的影響
  • 建立真正全球化的 MER 數據集

4.多場景數據收集

  • 涵蓋更多真實應用場景
  • 包括不同環境噪音、光線條件
  • 確保模型在實際部署中的魯棒性

多模態融合的深化研究

當前挑戰
融合來自不同模態的數據進行情緒識別是另一個困境。不同模態間的時間不對齊和特徵異質性使融合過程複雜

信息理論的應用機會

基於熵的融合策略
通過熵量化各模態的信息內容,評估每個數據源的不確定性或可預測性。這可以識別提供實質信息的模態,同時識別引入噪音或冗餘的模態

互信息的運用
使用互信息等信息理論概念,可以闡明模態間的相互依賴程度。這些洞察將促進更和諧、更明智的融合過程,確保模態間的關係和協同作用得到最優利用

未來研究方向

1.自適應融合機制

  • 根據輸入質量動態調整模態權重
  • 處理缺失或噪音模態的情況
  • 提升系統魯棒性

2.層次化融合架構

  • 在多個層次進行融合(早期、中期、晚期)
  • 捕捉不同抽象層次的互動
  • 類似人類多層次信息處理

3.跨模態對齊技術

  • 解決時間不同步問題
  • 處理不同模態的不同時間尺度
  • 學習模態間的潛在對應關係

4.可解釋的融合方法

  • 理解為什麼某些融合策略有效
  • 視覺化模態間的互動
  • 提供融合決策的可解釋性

模型泛化能力的提升

當前挑戰
儘管提出了許多優秀的 MER 模型,但它們通常在依賴非現實場景的特定數據集上訓練,難以適應工業應用

未來研究方向

1.領域自適應技術

  • 從源領域遷移知識到目標領域
  • 減少對目標領域標註數據的需求
  • 提升跨數據集性能

2.元學習方法

  • 學習如何快速適應新任務
  • Few-shot 和 Zero-shot 情緒識別
  • 提升模型對新情緒類別的泛化

3.多任務學習

  • 同時訓練多個相關任務
  • 共享底層表示,任務特定頂層
  • 提升模型整體泛化能力

4.持續學習機制

  • 模型能夠持續從新數據學習
  • 避免災難性遺忘
  • 適應不斷變化的情緒表達方式

計算效率的優化

當前挑戰
為了獲得更高準確率和更好結果,深度學習模型通常需要大量數據和計算資源進行訓練。然而,在 MER 情境下獲取大量標註數據並進行模型訓練是一項艱鉅且昂貴的工作

未來研究方向

1.模型壓縮技術

  • 知識蒸餾:用小模型學習大模型
  • 模型剪枝:移除不重要的參數
  • 量化:降低模型精度但保持性能

2.高效架構設計

  • MobileNet、EfficientNet 等輕量架構
  • 針對 MER 任務的專用架構
  • 平衡準確率和計算成本

3.邊緣計算部署

  • 在移動設備上運行 MER 模型
  • 減少雲端依賴和延遲
  • 保護用戶隱私

4.數據效率學習

  • 自監督學習減少標註需求
  • 主動學習選擇最有價值的樣本
  • 數據增強提升樣本利用率

倫理和隱私問題

當前挑戰
MER 是一種廣泛分析各種數據模態(包括語音、文本和臉部線索)來辨識個人情緒狀態的技術。這種深度分析通常涉及處理高度個人化和私密的情緒和經歷細節

核心問題

  • 情緒數據是高度敏感的個人信息
  • 可能被濫用於操縱或歧視
  • 需要在性能和隱私間取得平衡

未來研究方向

1.隱私保護技術

  • 聯邦學習:數據不離開本地設備
  • 差分隱私:添加噪音保護個體隱私
  • 同態加密:在加密數據上進行計算

2.倫理框架建立

  • 制定 MER 系統的倫理準則
  • 明確使用者知情同意機制
  • 建立監管和問責制度

3.公平性研究

  • 避免對特定群體的偏見
  • 確保跨文化、跨性別、跨年齡的公平性
  • 設計去偏見的訓練方法

4.透明度和可解釋性

  • 用戶應該知道系統如何判斷其情緒
  • 提供情緒識別結果的解釋
  • 允許用戶質疑和糾正系統判斷

小結

  • 技術選型:語音用 Wav2Vec/WavLM,文本用 BERT 系列;融合從晚期基線起步,逐步導入細粒度互動互信息方法。

  • 方法論:系統性思考(資料→特徵→融合→評估)、演進視角、批判分析、面向未來的研究設計。


參考文獻

[1] H. Lian, C. Lu, S. Li, Y. Zhao, C. Tang, and Y. Zong, “A survey of deep learning-based multimodal emotion recognition: Speech, text, and face,” Entropy, vol. 25, no. 10, Art. no. 1440, 2023, doi: 10.3390/e25101440.

註:Entropy 為 MDPI 期刊,使用 article number;本篇為 1440。


上一篇
Day 26 | 論文解析:深度學習情緒識別的研究方法與未來方向
下一篇
Day 28 | 動態手勢識別:從論文學到部署與監測的關鍵設計
系列文
感知你的動作與情緒:深度學習在人機互動的應用29
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言