▋前言
要檢驗 AI 語音系統的表現,不能只看準確率。每一個模組都有不同的評估方式。今天我們聚焦兩個核心指標:WER(Word Error Rate) 與 DER(Diarization Error Rate)。
▋內容
一、Word Error Rate (WER)
WER 是語音辨識中最常見的衡量指標,代表模型在逐字稿轉換時的整體偏差,公式如下:
WER = (S + D + I) / N
其中:
S = Substitutions(錯字)
D = Deletions(漏字)
I = Insertions(多字)
N = Ground Truth 單字總數
二、Diarization Error Rate (DER)
DER 衡量語者分離的準確度。計算時包含三種錯誤:
1. False alarm:誤判沒說話的時間。
2. Missed speech:錯過實際的語音。
3. Speaker confusion:說話者標錯。
三、改進策略
在 WER 方面:可調整音訊分段長度、採用更大模型(如 Whisper large-v3)。
在 DER 方面:加入 ECAPA-TDNN embedding、優化 clustering 閾值。
▋下回預告
明天將探討最後一個關鍵指標——情緒分類準確率 (Emotion Accuracy),並說明如何衡量情緒模型的可靠度。
▋參考資料