iT邦幫忙

2025 iThome 鐵人賽

DAY 29
0

▋前言


昨天我們驗證了系統在 IEMOCAP 對話的靜態情緒分類表現。
今天要更進一步觀察整段對話的「情緒曲線」,
看看系統能否捕捉人物情緒的起伏與轉折,這對教育與情緒分析應用至關重要。

▋內容


Step 1:對話階段情緒趨勢

根據 .srt 檔案中情緒時間標記,
我們可以將母子兩人的情緒變化劃分為三個階段:

階段 時間範圍 兒子 母親
開場 冷靜、理性 Neutral Neutral
中段 爭執爆發 Angry ↑ Angry → Calm(短暫爆發後回復)
結尾 情緒平復 Sad(未完全平靜) Comforting / Neutral(溫和安撫)

此結果與 IEMOCAP 原始人工標註曲線高度吻合。
顯示模型能在聲音特徵(如音量、語速、音高變化)中準確捕捉到情緒強度。

Step 2:情緒節奏判讀

母親的情緒曲線呈現「冷靜 → 短暫爆發 → 安撫」,而兒子則是「冷靜 → 憤怒 → 傷心」。
在對話後段,母親逐漸恢復理性,語氣轉為安慰與關懷,成為情緒調節的穩定力量。
系統將這些細膩變化辨識出來,顯示其在捕捉情緒轉換上的靈敏度,但同時也提醒我們:
標籤如 「Happy」 並不總等同於「快樂」,而可能代表「語氣柔和」或「親和安撫」,這是情緒辨識研究中常見的語意偏差問題。

Step 3:系統表現與潛在提升

優點:

1. 成功捕捉情緒轉折時機(特別是語速與音高變化)。

2. 反映對話中雙方的互動節奏。

3. 結果可視覺化成「情緒波形」,便於教師分析學生反應。

可改進之處:

1. 跨句情緒延續性不足:同樣語氣在不同句仍被視為獨立情緒。

2. 多層次情緒未被捕捉:如「壓抑的怒氣」常被分類為 Neutral。

3. 情緒辨識模型只靠聲音特徵可能會誤判:若加入文字理解(LLM),可避免情緒誤解。

Step 4:教育應用啟示

這樣的分析對教育場景有明確價值:

  • 教師端:可了解學生情緒參與曲線,評估課堂互動品質。

  • 學生端:可重播情緒高峰處,檢視學習表現。

  • 平台端:可自動產出「課堂情緒報告」,量化學習互動品質。

▋結語


這次 IEMOCAP 實驗驗證了整個語音辨識系統的可行性:

「從逐字稿,到講者分離,再到情緒曲線,全流程自動化分析。」

雖然仍有誤判與精細化空間,但它已足以成為教育領域中實用的輔助分析工具。
未來若能結合文字語意與多模態情緒模型,
將能讓教學 AI 不僅「聽懂語音」,更能「理解情緒」。

▋參考資料


IEMOCAP
kaggle Iemocap-full-release


上一篇
Day 28 IEMOCAP 資料應用 — 系統分析結果
系列文
AI語音辨識系統:結合聲紋分析與情緒識別29
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言