iT邦幫忙

2023 iThome 鐵人賽

DAY 21
0
AI & Data

AI與語音辨識系列 第 21

DAY21 語音辨識的前端—VAD篇 part2

  • 分享至 

  • xImage
  •  

你好哇!


VAD的簡介

VAD演算法通常形式是給定一幀(10~30ms)音訊資料,輸出該資料中含有語音的機率,在實際操作中,VAD的結果會包含大量雜訊,因此如何提高VAD的抗雜訊是很重要的問題。

VAD演算法大致由,特徵提取及語音或非語言判決,這兩個部分組成,傳統的特徵包括過零率、能量值、頻譜等,判決的方法則是有基於門限方法和基於統計模型的方法。在安靜環境下,VAD模型可以表現很好,而在訊號雜訊比(SNR)比較低的環境中,如何有效分辨語音及雜訊,就是其最大問題,隨著深度學習興起,VAD也比傳統方法有更優異的表現。

一、基於門限判決的VAD

VAD是屬於比較基礎且輕量的模型,在各方面需要考慮的因素有很多,如:需將語音及非語音的分離度盡可能加大、考慮到其計算力偏低等問題。短時能量是用於語音檢測最直觀的依據,由於語音訊號的特徵是隨著時間變化,典型的能量值在濁音及清音會有很大的變化,因此在計算短時能量時需要一個比較短的窗函數來回應,對於訊號x(n),如有窗函數w(n),且長度為N,則短時能量可以表示如下公式:
https://chart.googleapis.com/chart?cht=tx&chl=E_n%3D%5Csum_%7Bm%3D0%7D%5E%7BN-1%7D%20%5Bx(m%2Bn)w(n)%5D%5E2

由於語音訊號在不同範圍的能量差異大,所以在使用時會拓展到多個子頻,分別計算每個子頻的能量,再去設定不同的判決設定值。由於短時能量是對訊號的平方計算,所以高低音量的差距會變得更大,短時平均幅度計算公式如下:
https://chart.googleapis.com/chart?cht=tx&chl=M_n%3D%5Csum_%7Bm%3D0%7D%5E%7BN-1%7D%20%7Cx(m%2Bn)w(m)%7C

簡單門限判決的VAD演算法主要適用於安靜環境,在非平穩雜訊過多的環境下會用到之後提及的基於統計模型演算法。


參考書籍:Hey Siri及Ok Google原理:AI語音辨識專案真應用開發
參考網站:今日無
學習對象:ChatGPT


上一篇
DAY20 語音辨識的前端—VAD篇 part1
下一篇
DAY22 語音辨識的前端—VAD篇 part3
系列文
AI與語音辨識30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言