▋前言
昨天我們驗證了系統在 IEMOCAP 對話的靜態情緒分類表現。
今天要更進一步觀察整段對話的「情緒曲線」,
看看系統能否捕捉人物情緒的起伏與轉折,這對教育與情緒分析應用至關重要。
▋內容
Step 1:對話階段情緒趨勢
根據 .srt 檔案中情緒時間標記,
我們可以將母子兩人的情緒變化劃分為三個階段:
階段 | 時間範圍 | 兒子 | 母親 |
---|---|---|---|
開場 | 冷靜、理性 | Neutral | Neutral |
中段 | 爭執爆發 | Angry ↑ | Angry → Calm(短暫爆發後回復) |
結尾 | 情緒平復 | Sad(未完全平靜) | Comforting / Neutral(溫和安撫) |
此結果與 IEMOCAP 原始人工標註曲線高度吻合。
顯示模型能在聲音特徵(如音量、語速、音高變化)中準確捕捉到情緒強度。
Step 2:情緒節奏判讀
母親的情緒曲線呈現「冷靜 → 短暫爆發 → 安撫」,而兒子則是「冷靜 → 憤怒 → 傷心」。
在對話後段,母親逐漸恢復理性,語氣轉為安慰與關懷,成為情緒調節的穩定力量。
系統將這些細膩變化辨識出來,顯示其在捕捉情緒轉換上的靈敏度,但同時也提醒我們:
標籤如 「Happy」 並不總等同於「快樂」,而可能代表「語氣柔和」或「親和安撫」,這是情緒辨識研究中常見的語意偏差問題。
Step 3:系統表現與潛在提升
優點:
1. 成功捕捉情緒轉折時機(特別是語速與音高變化)。
2. 反映對話中雙方的互動節奏。
3. 結果可視覺化成「情緒波形」,便於教師分析學生反應。
可改進之處:
1. 跨句情緒延續性不足:同樣語氣在不同句仍被視為獨立情緒。
2. 多層次情緒未被捕捉:如「壓抑的怒氣」常被分類為 Neutral。
3. 情緒辨識模型只靠聲音特徵可能會誤判:若加入文字理解(LLM),可避免情緒誤解。
Step 4:教育應用啟示
這樣的分析對教育場景有明確價值:
教師端:可了解學生情緒參與曲線,評估課堂互動品質。
學生端:可重播情緒高峰處,檢視學習表現。
平台端:可自動產出「課堂情緒報告」,量化學習互動品質。
▋結語
這次 IEMOCAP 實驗驗證了整個語音辨識系統的可行性:
「從逐字稿,到講者分離,再到情緒曲線,全流程自動化分析。」
雖然仍有誤判與精細化空間,但它已足以成為教育領域中實用的輔助分析工具。
未來若能結合文字語意與多模態情緒模型,
將能讓教學 AI 不僅「聽懂語音」,更能「理解情緒」。
▋參考資料
IEMOCAP
kaggle Iemocap-full-release