iT邦幫忙

2021 iThome 鐵人賽

DAY 15
1
AI & Data

機器學習應用於語音相關服務系列 第 15

Day15 - 模型評估 part2

前面提到過使用不同架構(FCDAE(3h),FCDAE(5h))的全連接神經網路除噪模型對兩個語音特徵做除噪,效果如表 1、表 2。

語音特徵 辨識模型 方法 詞正確率
AFE HMM-GMM baseline 83.17
AFE HMM-GMM FCDAE(3h) 93.47
AFE HMM-GMM FCDAE(3h) + BN 93.19
AFE HMM-GMM FCDAE(5h) 93.98
AFE HMM-GMM FCDAE(5h) + BN 93.77
AFE CTC baseline 84.91
AFE CTC FCDAE(3h) 92.26
AFE CTC FCDAE(3h) + BN 92.06
AFE CTC FCDAE(5h) 92.72
AFE CTC FCDAE(5h) + BN 92.52
MFCC HMM-GMM baseline 78.32
MFCC HMM-GMM FCDAE(3h) 91.93
MFCC HMM-GMM FCDAE(3h) + BN 91.74
MFCC HMM-GMM FCDAE(5h) 92.44
MFCC HMM-GMM FCDAE(5h) + BN 92.11
MFCC CTC baseline 78.31
MFCC CTC FCDAE(3h) 90.90
MFCC CTC FCDAE(3h) + BN 90.73
MFCC CTC FCDAE(5h) 91.40
MFCC CTC FCDAE(5h) + BN 91.30

表 1: 乾淨訓練資料下兩種除噪模型的實驗結果,BN 表示在訓練FCDAE有使用批量正規

語音特徵 辨識模型 方法 詞正確率
AFE HMM-GMM baseline 91.77
AFE HMM-GMM FCDAE(3h) 93.81
AFE HMM-GMM FCDAE(3h) + BN 93.46
AFE HMM-GMM FCDAE(5h) 94.00
AFE HMM-GMM FCDAE(5h) + BN 93.93
AFE CTC baseline 92.71
AFE CTC FCDAE(3h) 93.89
AFE CTC FCDAE(3h) + BN 93.64
AFE CTC FCDAE(5h) 93.99
AFE CTC FCDAE(5h) + BN 93.87
MFCC HMM-GMM baseline 89.88
MFCC HMM-GMM FCDAE(3h) 92.09
MFCC HMM-GMM FCDAE(3h) + BN 91.77
MFCC HMM-GMM FCDAE(5h) 92.58
MFCC HMM-GMM FCDAE(5h) + BN 92.20
MFCC CTC baseline 90.77
MFCC CTC FCDAE(3h) 91.96
MFCC CTC FCDAE(3h) + BN 91.74
MFCC CTC FCDAE(5h) 92.62
MFCC CTC FCDAE(5h) + BN 92.19

表 2: 含有噪音的訓練資料下兩種除噪模型的實驗結果,BN 表示在訓練FCDAE有使用批量正規

從結果可以發現不論是哪一種架構的 FCDAE,和 baseline 相比兩個語音特徵的詞正確率都有明顯的上升,表示我們的模型確實達到除噪的效果。
首先我們先探討兩個語音特徵的除噪表現,使用 AFE 在乾淨狀態和多重狀態最好的結果分別是 93.98% 和 94.00%,和基準實驗相比分別有 64% 和 27% 的相對改善率;而使用 MFCC 在乾淨狀態和多重狀態最好的結果分別是 92.44% 和92.62%,和基準實驗相比分別有 65% 和 20% 的相對改善率。兩者對於基準實驗的相對改善率,在乾淨狀態幾乎相同,在多重狀態AFE高出 MFCC 約7%。

接著比較兩種 FCDAE 的效能,首先是未使用批量正規化(BN)的實驗,在相同的語音特徵和辨識模型下,FCDAE(5h)在乾淨狀態和多重狀態的詞正確率都比FCDAE(3h)高,我們可以得知在兩者的網路參數量差不多的條件下,比較深層的模型表現比較好;而在有使用批量正規化(BN)訓練兩個模型的實驗結果,和未使用的相比兩個模型的詞正確率都下降一些,在訓練除噪網路的過程有觀察到,使用批量正規化的損失(loss)函數值會很快收斂到一個定值就不再下降,而且數值會比未使用批量正規化的訓練還要高,這表示網路傾向收斂到局部最小值,進而造成除噪能力下降。

語音辨識實作的部分就到今天了,我們在進入下個主題-語音情緒辨識之前,要先向大家介紹語音辨識領域中相當有名而且功能強大的一套開源工具 — Kaldi


上一篇
Day14 - 模型評估 part 1
下一篇
Day16 - 語音辨識神級工具-Kaldi part1
系列文
機器學習應用於語音相關服務30

尚未有邦友留言

立即登入留言