▋前言
在 Day 22 我們介紹了語音與語者層面的評估。今天的焦點是「情緒辨識 (Speech Emotion Recognition)」的評估方式,以及如何建立統一的 AI 系統評估框架。
▋內容
一、情緒分類準確率 (Emotion Accuracy)
SER 模型通常輸出四類情緒:
Happy, Sad, Angry, Neutral
我們採用 SpeechBrain + Wav2Vec,主要考量是其在中性語音中仍保有穩定辨識率,且能兼顧延伸性。
二、混淆矩陣分析 (Confusion Matrix)
透過混淆矩陣可觀察模型在哪些情緒類別最易混淆。例如:
Angry ↔ Sad:情緒能量接近,聲調差異小。
Neutral ↔ Happy:語速與音高變化不明顯時常被誤判。
這樣的分析可協助改善模型權重、重新平衡資料。
三、整體評估框架
最終,我們為整個 AI 系統建立了以下三層評估:
模組 指標 目標值
STT WER < 10%
Diarization DER < 10%
SER Accuracy > 75%
這樣的設計能幫助我們量化每一階段的貢獻與改進方向。
▋下回預告
接下來,我們將針對三個資料集分別實際測試這套 AI 系統,並分析輸出成果與誤差來源。
▋參考資料
SpeechBrain Emotion Recognition
Understanding Confusion Matrix in ML