早上好呀!🥴
基於高斯混合模型(Gaussian Mixture Model,GMM)的VAD演算法是一種最典型的統計模型方法。在 Google 公司的WebRTC開放原始碼專案中,有使用此類演算法進行語音檢測。以下以WebRTC專案為例,介紹基於高斯混合模型的VAD演算法的基本流程。(下面挑幾個簡單的公式進行講解)
首先,在特徵的選取方面,WebRTC採用子頻的能量作為特徵。 WebRTC支持8kHz、16kHz~32kHz和48kHz等多種不同的取樣速率,在進行VAD處理之前它們被統一降採樣到8kHz。根據奈奎斯特採樣定理,其支援的最高訊號頻率為4kHz。 WebRTC將4kHz的頻帶分為6個子頭,分別為80~250Hz,250~500Hz,500~1kHz, 1kHz~2kHz,2kHz~3kHz和3kHz~4kHz等,輸入的音訊訊號先透過一組濾波器得到上述了頻訊號,再計算每個子類的能量作為特徵。
對於每個子頻的能量,分別有一個高斯混合模型進行建模。設有隨機變數X~N(),即服從一個數學期望為M,方差為 的高斯分佈,則其機率密度為:
單高斯模型只有一個峰值,而對於語音訊號,使用這樣的單高斯模型並不能極佳地進行建模,故WebRTC中使用的是兩個高斯模型的混合:
其中, 和 分別是兩個高斯分布的均值, 和 丟他分別是兩個高斯分佈的方差。在每個子頻中,語音和雜訊分別有一個高斯混合模型。
參考書籍:Hey Siri及Ok Google原理:AI語音辨識專案真應用開發
參考網站:今日無
學習對象:ChatGPT