iT邦幫忙

2021 iThome 鐵人賽

DAY 14
1
AI & Data

機器學習應用於語音相關服務系列 第 14

Day14 - 模型評估 part 1

  • 分享至 

  • twitterImage
  •  

在今天的文章中我們會使用詞正確率來評估模型的效能,詞正確率是由詞錯誤率(Word Error Rate, WER)轉換後得到。為 了計算詞錯誤率,我們將預測出的結果以及正確的結果計算其取代錯誤(Substitution error, S)刪除錯誤(Deletion error, D)插入錯誤(Insertion error, I)的數量,詞錯誤率的計算方式如下:
https://chart.googleapis.com/chart?cht=tx&chl=WER%3D%5Cfrac%7BS%2BD%2BI%7D%7BN%7D%5Ctimes%20100%5C%25
其中 N 表示正確答案的總詞數,因此詞正確率就等於
https://chart.googleapis.com/chart?cht=tx&chl=Word%20Correct%20Rate%20%3D%201-WER

我們將語音特徵不經過除噪模型,直接用於辨識得到的結果作為基準(baseline)。在 Day09 時有提過會對語音特徵做 CMVN 正規化,並使用高斯混合模型(HMM-GMM) 和 CTC 模型作後端的語音辨識。baseline 結果如表 1、表 2,使用 AFE 特徵在乾淨的訓練資料下,HMM-GMM 的詞正確率是83.17%,CTC 模型是84.91%,含有噪音的訓練資料,HMM-GMM 和CTC 模型的詞正確率分別是 91.77% 和 92.71% ;而在 MFCC 特徵方面,在乾淨的訓練資料下,HMM-GMM 的詞正確率是78.32%,CTC 模型是78.31%,含有噪音的訓練資料,HMM-GMM 和 CTC 模型的詞正確率分別是 89.88% 和 90.77%。

語音特徵 | 辨識模型 | 詞正確率
------------- | -------------
AFE | HMM-GMM | 83.17%
AFE | CTC | 84.91%
MFCC | HMM-GMM | 78.32%
MFCC | CTC | 78.31%
表 1: 乾淨的訓練資料 baseline

語音特徵 | 辨識模型 | 詞正確率
------------- | -------------
AFE | HMM-GMM | 91.77%
AFE | CTC | 92.71%
MFCC | HMM-GMM | 89.88%
MFCC | CTC | 90.77%
表 2: 含有噪音的訓練資料 baseline

從結果中可以發現,因為測試資料是含有噪音的,所以使用乾淨的訓練資料訓練的模型詞正確率會比使用含有噪音的訓練資料來得差。
明天會將 baseline 的結果跟加入除噪模型後的結果做比較,了解除噪模型的效能。


上一篇
Day13 - 辨識模型 part2
下一篇
Day15 - 模型評估 part2
系列文
機器學習應用於語音相關服務30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言