iT邦幫忙

2023 iThome 鐵人賽

DAY 15
0
AI & Data

AI與語音辨識系列 第 15

DAY15 語音辨識的基礎,來了解語音訊號part8

  • 分享至 

  • xImage
  •  

不知道大家昨天有沒有烤肉吃飽飽呢!


昨天我們已經充分的理解奈奎斯特採樣定理,它就是一個關於連續訊號採樣的基本原理,確保以足夠高的採樣率進行採樣,以充分保留訊號的信息並避免混疊。這一原理在數位訊號處理和通信領域中起著關鍵作用,確保了數位訊號的正確表示和重建。

所以,我們先前所談到的公式及理論都可以知道,在對語音訊號的頻譜進行分析時,相鄰兩點的頻率差越小,頻譜就會越精細,頻域就會越高。

使用FFT對訊號進行分析的主要局限性在於,它是基於訊號平穩來假設的,對週期模型來建模,所以它只能反應訊號在指定時刻上的特徵,直接說就是FFT是沒有時間解析度的,語音訊號是時變性的,此時我們就會需要分析局部的時變特性,這時就會運用到STFT,STFT是透過小窗在時域上滑動,並且在小窗上計算FFT,這樣就可以同時分析時域及頻域了。

每次FFT參與的計算都是一幀,對於語音訊號x(n),其STFT公式:
https://chart.googleapis.com/chart?cht=tx&chl=X_i(k)%3D%5Csum_%7Bn%3D0%7D%5E%7BN-1%7Dx(iM%2Bn)w(n)e%5E%7B-%5Cfrac%7Bj2%5Cpi%20kn%7D%7BN%7D%20%7D

其中,w(n)是那個小窗的函數,i表示滑動小窗位置的索引,M是每兩幀之間的間隔。每個FFT的計算長度,也就是小窗的長度就決定了頻域的解析度,想當然爾,解析度越高越好,所以小窗的長度越長越好。

STFT的輸出被稱為訊號的時頻譜,其是二維的複矩陣,講這麼久應該都可以猜到其中一維是時間,另一維是頻率。透過STFT得到的訊號幅度譜或功率譜經常會需要轉換到對數域進行處理,一方面是語音訊號的頻譜數值非常廣,利用對數可以有效降低其範圍(而且這個差異會更符合人耳聽到的聲音);另一方面是根據語音產生的機制,其跟聲門及聲道產生,對應到頻域就是聲門的頻率乘以聲道的頻域,學過對數的你們,都知道對數內相成就是相加,就會長成下面這個樣子:
https://chart.googleapis.com/chart?cht=tx&chl=%5Clog%7BX(z)%7D%3D%5Clog%7B(G(z)V(z))%7D%3D%5Clog%7BG(z)%7D%2B%5Clog%7BV(z)%7D

這樣,就可以把聲門激勵及聲道特性分離,還可以將對數譜再進行FFT(或IFFT),此時得到的訊號就被稱為倒譜(Cepstrum),由於已經分離了聲門及聲道,因此可以分別進行基因週期及聲道脈衝的回應估計,以上這個過程稱為同態訊號的解卷積處理。


參考書籍:Hey Siri及Ok Google原理:AI語音辨識專案真應用開發
參考網站:今日無
學習對象:ChatGPT


上一篇
DAY14 語音辨識的基礎,來了解語音訊號part7
下一篇
DAY16 語音辨識的基礎,來了解語音訊號part9
系列文
AI與語音辨識30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言