iT邦幫忙

2023 iThome 鐵人賽

DAY 22
0
AI & Data

AI與語音辨識系列 第 22

DAY22 語音辨識的前端—VAD篇 part3

  • 分享至 

  • xImage
  •  

早上好呀!🥴


二、基於高斯混合模型的VAD(之一)

基於高斯混合模型(Gaussian Mixture Model,GMM)的VAD演算法是一種最典型的統計模型方法。在 Google 公司的WebRTC開放原始碼專案中,有使用此類演算法進行語音檢測。以下以WebRTC專案為例,介紹基於高斯混合模型的VAD演算法的基本流程。(下面挑幾個簡單的公式進行講解)

首先,在特徵的選取方面,WebRTC採用子頻的能量作為特徵。 WebRTC支持8kHz、16kHz~32kHz和48kHz等多種不同的取樣速率,在進行VAD處理之前它們被統一降採樣到8kHz。根據奈奎斯特採樣定理,其支援的最高訊號頻率為4kHz。 WebRTC將4kHz的頻帶分為6個子頭,分別為80~250Hz,250~500Hz,500~1kHz, 1kHz~2kHz,2kHz~3kHz和3kHz~4kHz等,輸入的音訊訊號先透過一組濾波器得到上述了頻訊號,再計算每個子類的能量作為特徵。

對於每個子頻的能量,分別有一個高斯混合模型進行建模。設有隨機變數X~N(https://chart.googleapis.com/chart?cht=tx&chl=%5Cmu%20%2C%20%5Csigma%20%5E2),即服從一個數學期望為M,方差為https://chart.googleapis.com/chart?cht=tx&chl=%5Csigma%20%5E2 的高斯分佈,則其機率密度為:
https://chart.googleapis.com/chart?cht=tx&chl=p(x)%3D%5Cfrac%7B1%7D%7B%5Csqrt%7B2%5Cpi%20%5Csigma%20%7D%7De%5E%7B%5Cfrac%20%7B-(x-%5Cmu%20)%5E2%7D%7B2%5Csigma%20%5E2%7D%7D

單高斯模型只有一個峰值,而對於語音訊號,使用這樣的單高斯模型並不能極佳地進行建模,故WebRTC中使用的是兩個高斯模型的混合:
https://chart.googleapis.com/chart?cht=tx&chl=p(x)%3D%5Cfrac%7B1%7D%7B%5Csqrt%7B2%5Cpi%20%5Csigma_1%20%7D%7De%5E%7B%5Cfrac%20%7B-(x-%5Cmu_1%20)%5E2%7D%7B2%5Csigma_1%20%5E2%7D%7D%2B%5Cfrac%7B1%7D%7B%5Csqrt%7B2%5Cpi%20%5Csigma_2%20%7D%7De%5E%7B%5Cfrac%20%7B-(x-%5Cmu_2%20)%5E2%7D%7B2%5Csigma_2%20%5E2%7D%7D

其中,https://chart.googleapis.com/chart?cht=tx&chl=%5Cmu_1https://chart.googleapis.com/chart?cht=tx&chl=%5Cmu_2 分別是兩個高斯分布的均值,https://chart.googleapis.com/chart?cht=tx&chl=%5Csigma_1https://chart.googleapis.com/chart?cht=tx&chl=%5Csigma_2 丟他分別是兩個高斯分佈的方差。在每個子頻中,語音和雜訊分別有一個高斯混合模型。


參考書籍:Hey Siri及Ok Google原理:AI語音辨識專案真應用開發
參考網站:今日無
學習對象:ChatGPT


上一篇
DAY21 語音辨識的前端—VAD篇 part2
下一篇
DAY23 語音辨識的前端—VAD篇 part4
系列文
AI與語音辨識30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言