你好哇!
VAD演算法通常形式是給定一幀(10~30ms)音訊資料,輸出該資料中含有語音的機率,在實際操作中,VAD的結果會包含大量雜訊,因此如何提高VAD的抗雜訊是很重要的問題。
VAD演算法大致由,特徵提取及語音或非語言判決,這兩個部分組成,傳統的特徵包括過零率、能量值、頻譜等,判決的方法則是有基於門限方法和基於統計模型的方法。在安靜環境下,VAD模型可以表現很好,而在訊號雜訊比(SNR)比較低的環境中,如何有效分辨語音及雜訊,就是其最大問題,隨著深度學習興起,VAD也比傳統方法有更優異的表現。
VAD是屬於比較基礎且輕量的模型,在各方面需要考慮的因素有很多,如:需將語音及非語音的分離度盡可能加大、考慮到其計算力偏低等問題。短時能量是用於語音檢測最直觀的依據,由於語音訊號的特徵是隨著時間變化,典型的能量值在濁音及清音會有很大的變化,因此在計算短時能量時需要一個比較短的窗函數來回應,對於訊號x(n),如有窗函數w(n),且長度為N,則短時能量可以表示如下公式:
由於語音訊號在不同範圍的能量差異大,所以在使用時會拓展到多個子頻,分別計算每個子頻的能量,再去設定不同的判決設定值。由於短時能量是對訊號的平方計算,所以高低音量的差距會變得更大,短時平均幅度計算公式如下:
簡單門限判決的VAD演算法主要適用於安靜環境,在非平穩雜訊過多的環境下會用到之後提及的基於統計模型演算法。
參考書籍:Hey Siri及Ok Google原理:AI語音辨識專案真應用開發
參考網站:今日無
學習對象:ChatGPT