iT邦幫忙

2025 iThome 鐵人賽

DAY 22
0

▋前言


要檢驗 AI 語音系統的表現,不能只看準確率。每一個模組都有不同的評估方式。今天我們聚焦兩個核心指標:WER(Word Error Rate) 與 DER(Diarization Error Rate)。

▋內容


一、Word Error Rate (WER)

WER 是語音辨識中最常見的衡量指標,代表模型在逐字稿轉換時的整體偏差,公式如下:

WER = (S + D + I) / N

其中:

S = Substitutions(錯字)

D = Deletions(漏字)

I = Insertions(多字)

N = Ground Truth 單字總數

二、Diarization Error Rate (DER)

DER 衡量語者分離的準確度。計算時包含三種錯誤:

1. False alarm:誤判沒說話的時間。

2. Missed speech:錯過實際的語音。

3. Speaker confusion:說話者標錯。

三、改進策略

在 WER 方面:可調整音訊分段長度、採用更大模型(如 Whisper large-v3)。

在 DER 方面:加入 ECAPA-TDNN embedding、優化 clustering 閾值。

▋下回預告


明天將探討最後一個關鍵指標——情緒分類準確率 (Emotion Accuracy),並說明如何衡量情緒模型的可靠度。

▋參考資料


Evaluation Metrics for ASR


上一篇
Day 21 模型實驗設計概念與架構規劃
下一篇
Day 23 情緒分類準確率與整體評估框架
系列文
AI語音辨識系統:結合聲紋分析與情緒識別23
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言