Day15 - 模型評估 part2 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2021 iThome 鐵人賽

DAY 15

AI & Data

機器學習應用於語音相關服務系列第 15 篇

Day15 - 模型評估 part2

13th鐵人賽

pwhsiao

2021-09-27 17:30:49

1820 瀏覽

分享至

前面提到過使用不同架構(FCDAE(3h),FCDAE(5h))的全連接神經網路除噪模型對兩個語音特徵做除噪，效果如表 1、表 2。

語音特徵 | 辨識模型 | 方法 | 詞正確率
------------- | -------------
AFE | HMM-GMM | baseline | 83.17
AFE | HMM-GMM | FCDAE(3h) | 93.47
AFE | HMM-GMM | FCDAE(3h) + BN | 93.19
AFE | HMM-GMM | FCDAE(5h) | 93.98
AFE | HMM-GMM | FCDAE(5h) + BN | 93.77
AFE | CTC | baseline | 84.91
AFE | CTC| FCDAE(3h) | 92.26
AFE | CTC | FCDAE(3h) + BN | 92.06
AFE | CTC | FCDAE(5h) | 92.72
AFE | CTC | FCDAE(5h) + BN | 92.52
MFCC | HMM-GMM | baseline | 78.32
MFCC | HMM-GMM | FCDAE(3h) | 91.93
MFCC | HMM-GMM | FCDAE(3h) + BN | 91.74
MFCC | HMM-GMM | FCDAE(5h) | 92.44
MFCC | HMM-GMM | FCDAE(5h) + BN | 92.11
MFCC | CTC | baseline | 78.31
MFCC | CTC| FCDAE(3h) | 90.90
MFCC | CTC | FCDAE(3h) + BN | 90.73
MFCC | CTC | FCDAE(5h) | 91.40
MFCC | CTC | FCDAE(5h) + BN | 91.30
表 1: 乾淨訓練資料下兩種除噪模型的實驗結果，BN 表示在訓練FCDAE有使用批量正規
化

語音特徵 | 辨識模型 | 方法 | 詞正確率
------------- | -------------
AFE | HMM-GMM | baseline | 91.77
AFE | HMM-GMM | FCDAE(3h) | 93.81
AFE | HMM-GMM | FCDAE(3h) + BN | 93.46
AFE | HMM-GMM | FCDAE(5h) | 94.00
AFE | HMM-GMM | FCDAE(5h) + BN | 93.93
AFE | CTC | baseline | 92.71
AFE | CTC| FCDAE(3h) | 93.89
AFE | CTC | FCDAE(3h) + BN | 93.64
AFE | CTC | FCDAE(5h) | 93.99
AFE | CTC | FCDAE(5h) + BN | 93.87
MFCC | HMM-GMM | baseline | 89.88
MFCC | HMM-GMM | FCDAE(3h) | 92.09
MFCC | HMM-GMM | FCDAE(3h) + BN | 91.77
MFCC | HMM-GMM | FCDAE(5h) | 92.58
MFCC | HMM-GMM | FCDAE(5h) + BN | 92.20
MFCC | CTC | baseline | 90.77
MFCC | CTC| FCDAE(3h) | 91.96
MFCC | CTC | FCDAE(3h) + BN | 91.74
MFCC | CTC | FCDAE(5h) | 92.62
MFCC | CTC | FCDAE(5h) + BN | 92.19
表 2: 含有噪音的訓練資料下兩種除噪模型的實驗結果，BN 表示在訓練FCDAE有使用批量正規
化

從結果可以發現不論是哪一種架構的 FCDAE，和 baseline 相比兩個語音特徵的詞正確率都有明顯的上升，表示我們的模型確實達到除噪的效果。
首先我們先探討兩個語音特徵的除噪表現，使用 AFE 在乾淨狀態和多重狀態最好的結果分別是 93.98% 和 94.00%，和基準實驗相比分別有 64% 和 27% 的相對改善率；而使用 MFCC 在乾淨狀態和多重狀態最好的結果分別是 92.44% 和92.62%，和基準實驗相比分別有 65% 和 20% 的相對改善率。兩者對於基準實驗的相對改善率，在乾淨狀態幾乎相同，在多重狀態AFE高出 MFCC 約7%。

接著比較兩種 FCDAE 的效能，首先是未使用批量正規化(BN)的實驗，在相同的語音特徵和辨識模型下，FCDAE(5h)在乾淨狀態和多重狀態的詞正確率都比FCDAE(3h)高，我們可以得知在兩者的網路參數量差不多的條件下，比較深層的模型表現比較好；而在有使用批量正規化(BN)訓練兩個模型的實驗結果，和未使用的相比兩個模型的詞正確率都下降一些，在訓練除噪網路的過程有觀察到，使用批量正規化的損失(loss)函數值會很快收斂到一個定值就不再下降，而且數值會比未使用批量正規化的訓練還要高，這表示網路傾向收斂到局部最小值，進而造成除噪能力下降。

語音辨識實作的部分就到今天了，我們在進入下個主題-語音情緒辨識之前，要先向大家介紹語音辨識領域中相當有名而且功能強大的一套開源工具 — Kaldi。