iT邦幫忙

2025 iThome 鐵人賽

DAY 23
0

▋前言


在 Day 22 我們介紹了語音與語者層面的評估。今天的焦點是「情緒辨識 (Speech Emotion Recognition)」的評估方式,以及如何建立統一的 AI 系統評估框架。

▋內容


一、情緒分類準確率 (Emotion Accuracy)

SER 模型通常輸出四類情緒:

Happy, Sad, Angry, Neutral

我們採用 SpeechBrain + Wav2Vec,主要考量是其在中性語音中仍保有穩定辨識率,且能兼顧延伸性。

二、混淆矩陣分析 (Confusion Matrix)

透過混淆矩陣可觀察模型在哪些情緒類別最易混淆。例如:

Angry ↔ Sad:情緒能量接近,聲調差異小。

Neutral ↔ Happy:語速與音高變化不明顯時常被誤判。

這樣的分析可協助改善模型權重、重新平衡資料。

三、整體評估框架

最終,我們為整個 AI 系統建立了以下三層評估:

模組 指標 目標值
STT WER < 10%
Diarization DER < 10%
SER Accuracy > 75%

這樣的設計能幫助我們量化每一階段的貢獻與改進方向。

▋下回預告


接下來,我們將針對三個資料集分別實際測試這套 AI 系統,並分析輸出成果與誤差來源。

▋參考資料


SpeechBrain Emotion Recognition
Understanding Confusion Matrix in ML


上一篇
Day 22 語音辨識與語者辨識的評估方法
系列文
AI語音辨識系統:結合聲紋分析與情緒識別23
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言