你好!
昨天提及WebRTC是由兩個高斯模型組成,而在進行判決時,對每個子頻計算一個二元高斯對數似然比,如下所示:
其中,Ps(x)為第i個子頻語音模型的機率。Pn(x)為第i個子頻雜訊模型的機率。
在各個子類似然比的基礎上,再計算一個全域似然比:
接下來,對每個子頻的似然比和全域似然比均進行一次門限判決,具體的門限值由試驗和經驗舉出。為了避免漏判語音,當子類似然比和全域似然比當中有任何一個超過設定的設定值時,最終判決結果就會認為訊號中存在語音。判決結果由下式舉出:
其中,T是全域門限,而T是第i個子頻的門限。 WebRTC有四組預設的門限值,分別對應四種不同的檢測模式,分別為0:通用模式(Normal);1:低取樣率模式(Low Bitrate);2:激進模式(Aggressive);3:非常激進模式(Very Aggressive)。按照數字從小到大的順序,四種模式的門限值依次變大,即檢出語音的標準越來越高。
在進行判決之後,需要進行高斯模型的參數更新。根據當前VAD的判決結果,WebRTC只進行雜訊或語音模型的更新。當判決結果為1(有語音),就只進行語者模型的更新。當判決結果為0(沒有語音),只進行雜訊模型的更新。
以上的VAD演算法透過子頻的特徵計算和高斯混合模型的自我調整更新,實現了比門限判決法具有更高的堅固性。
//高斯模型部分講解完畢,這部分真的好難好難,公式也很有趣,請多多參考喔!
參考書籍:Hey Siri及Ok Google原理:AI語音辨識專案真應用開發
參考網站:今日無
學習對象:ChatGPT