昨天的採樣、量化及編碼還有更詳細的內容,請大家服用
在很多語音處理系統中,還需要對語音訊號進行預強調(pre-emphasis)。所謂預強調是指使用一階高通濾波器對訊號的高頻部分進行強調(前面有說過越高頻的聲音資訊越少)。在語音產生的過程中,由於受口鼻輻射的影響,高頻能量會明顯下降,通過預強調可以彌補此效應,預強調的公式如下:
(alpha是濾波器的係數,通常取0.94~0.97)
如果語音訊號在進行處理之後還要播放,則可以透過加重(de-emphasis)濾波器,來恢復到原始的頻域曲線,和預強調不一樣的是加重濾波器是一階低通濾波器,公式如下:
經過採樣及量化後,接著得透過脈衝碼調制(Pulse Coding Modulation,PCM)來進行編碼,這就是將量化過的採樣點以二進位的形式保存成序列。
在很多情況下,為了節省頻寬,需要降低訊號的串流速度,此時就會運用到更進階更厲害的編碼方式,語音編碼可以分為波形編碼、參數編碼以及混合編碼。
總之,波形編碼保留了最高的音訊品質,但文件大小大,參數編碼適用於低位元率壓縮,而混合編碼則試圖在品質和壓縮效率之間取得平衡,在現代電腦中,常見的也是混合編碼,選擇哪種編碼方法都會取決於應用的需求。
口鼻輻射是指人體在語音或語言產生過程中,通過口腔和鼻腔中的聲音反射或傳遞,對語音信號進行調整和濾波的現象。
參考書籍:Hey Siri及Ok Google原理:AI語音辨識專案真應用開發
參考網站:今日無
學習對象:ChatGPT