不知道大家昨天有沒有烤肉吃飽飽呢!
昨天我們已經充分的理解奈奎斯特採樣定理,它就是一個關於連續訊號採樣的基本原理,確保以足夠高的採樣率進行採樣,以充分保留訊號的信息並避免混疊。這一原理在數位訊號處理和通信領域中起著關鍵作用,確保了數位訊號的正確表示和重建。
所以,我們先前所談到的公式及理論都可以知道,在對語音訊號的頻譜進行分析時,相鄰兩點的頻率差越小,頻譜就會越精細,頻域就會越高。
使用FFT對訊號進行分析的主要局限性在於,它是基於訊號平穩來假設的,對週期模型來建模,所以它只能反應訊號在指定時刻上的特徵,直接說就是FFT是沒有時間解析度的,語音訊號是時變性的,此時我們就會需要分析局部的時變特性,這時就會運用到STFT,STFT是透過小窗在時域上滑動,並且在小窗上計算FFT,這樣就可以同時分析時域及頻域了。
每次FFT參與的計算都是一幀,對於語音訊號x(n),其STFT公式:
其中,w(n)是那個小窗的函數,i表示滑動小窗位置的索引,M是每兩幀之間的間隔。每個FFT的計算長度,也就是小窗的長度就決定了頻域的解析度,想當然爾,解析度越高越好,所以小窗的長度越長越好。
STFT的輸出被稱為訊號的時頻譜,其是二維的複矩陣,講這麼久應該都可以猜到其中一維是時間,另一維是頻率。透過STFT得到的訊號幅度譜或功率譜經常會需要轉換到對數域進行處理,一方面是語音訊號的頻譜數值非常廣,利用對數可以有效降低其範圍(而且這個差異會更符合人耳聽到的聲音);另一方面是根據語音產生的機制,其跟聲門及聲道產生,對應到頻域就是聲門的頻率乘以聲道的頻域,學過對數的你們,都知道對數內相成就是相加,就會長成下面這個樣子:
這樣,就可以把聲門激勵及聲道特性分離,還可以將對數譜再進行FFT(或IFFT),此時得到的訊號就被稱為倒譜(Cepstrum),由於已經分離了聲門及聲道,因此可以分別進行基因週期及聲道脈衝的回應估計,以上這個過程稱為同態訊號的解卷積處理。
參考書籍:Hey Siri及Ok Google原理:AI語音辨識專案真應用開發
參考網站:今日無
學習對象:ChatGPT