DAY26 語音辨識的前端—單通道降噪篇 part1

2023 iThome 鐵人賽

DAY 26

AI & Data

AI與語音辨識系列第 26 篇

15th鐵人賽

meooooow

2023-10-11 01:59:52

697 瀏覽

分享至

早上好～

單通道降噪是一種用於改善語音品質的數位信號處理技術。它的主要目標是在只有單個麥克風或麥克風的音訊通道下，減少環境噪音對語音訊號的干擾。它幫助提高語音訊號的清晰度，使語音處理系統在嘈雜環境中更加可靠。

貝氏準則下的MMSE

在語音辨識中，MMSE（最小均方誤差估計）根據貝氏準則用於降噪，以改進語音辨識的性能。這是一個常見的技術，特別是在環境嘈雜的情況下，其中降噪是提高語音辨識準確性的關鍵。

基本原理：

貝氏準則下的MMSE降噪是基於以下思想：我們有一個混合了語音信號和噪音的觀察信號，我們希望估計語音信號，同時減少噪音的影響。
這通常通過將語音信號建模為一個隨機變數，並使用觀察到的信號和已知的語音模型（通常是高斯混合模型）進行最佳估計。

貝氏估計：

在貝氏準則下，我們使用貝氏估計來估計語音信號。這是一個基於貝氏定理的方法，它使用觀察到的信號和先前的知識（語音模型和噪音模型）來計算最可能的語音信號。

MMSE 估計：

在貝氏估計中，MMSE 估計是一種特殊的估計方法，它最小化估計誤差的均方值。在降噪中，它專注於最大程度地減少噪音對語音信號的干擾，以提高語音辨識的準確性。

應用：

降噪技術在語音辨識系統中是至關重要的。通常，麥克風捕捉到的語音信號可能受到環境噪音、回音等的影響。降噪技術有助於減少這些干擾，提供更清晰的語音信號，從而改善語音辨識性能。

使用MMSE作為標準的最佳化方法，雖然在數學上完全成立並且也比較容易處理，然而如果考慮到人耳的聽覺特性，因為人耳對於音量及音訊的感應非線性，而是接近對數關係，所以MMSE準則在主觀聽感並不一定是最優解。語音訊號的的動態範圍相當寬，高能量和低能量之間往往有數量級的差異，所以可以使用更為進階的IMCRA雜訊估計和log-MMSE估計器，可以取得更好的偵測結果。