iT邦幫忙

2023 iThome 鐵人賽

DAY 21
0
自我挑戰組

深度學習的學習 & ASR 中文語音辨識系列 第 21

【Day 21】WER/CER 簡單介紹

  • 分享至 

  • xImage
  •  

當你今天是個可憐的學測生,正在準備數學這科,好不容易寫完一張數學考卷時,在把它燒掉之前還是會想知道自己寫得好不好
因此,就會把解答拿出來批改考卷,最後算出數學成績

模型也是一樣概念
當我們給模型一個語音檔,模型生出結果(你寫完的考卷),當我們想知道他翻譯的到底好不好時,就會跟原始文本(解答)進行比對(批改考卷),最後得出一個準確率(成績)

換一些名詞的話則是:

舉例名詞 專有名詞 意思
你寫完的考卷 Hypothesis 模型預測出的結果
解答 Reference 語音檔的正確文字
批改考卷 WER/CER 方法 評估方式
成績 1 - WER/CER 準確度

其實批改考卷&成績兩者是一樣概念,等等會說明

簡而言之,WER/CER 其實就是一個數值,單位通常是百分比(%),兩者都是評估模型訓練成果的衡量方式,只是兩者適用的範圍不同

WER

Word Error Rate, 單字錯誤率

它只會比對各個單字是否有錯誤、少字

  • 最小單位:單字
  • 適用語系:英文、拉丁文...

CER

Character Error Rate, 字元錯誤率

它會以各個字元作為單位去比對

  • 最小單位:字元
  • 適用語系:中文、日文、韓文...

這邊舉個例子:
Case 英文

  • Hypothesis : I have a apple
  • Reference : I have an apple

Case 中文

  • Hypothesis : 國慶連價
  • Reference : 國慶連假
WER CER
Case 1 25% 7%
Case 2 100% 25%

可以看到上面,通常英文都是用 WER 來計算,中文都是用 CER 來計算
若是用錯的話也可以算出數值,但可能不是你想要的結果
我們要做的是中文 ASR,所以就以 CER 做為模型評估方式

小心得

其實有時間得但還是拖到最後一刻
國慶連假來囉!!!

Ref.


上一篇
【Day 20】Whisper 小測試遇到一些問題
下一篇
【Day 22】CER 的使用方法
系列文
深度學習的學習 & ASR 中文語音辨識30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言