iT邦幫忙

2023 iThome 鐵人賽

DAY 11
0
AI & Data

AI與語音辨識系列 第 11

DAY11 語音辨識的基礎,來了解語音訊號part4(補充)

  • 分享至 

  • xImage
  •  

昨天的採樣、量化及編碼還有更詳細的內容,請大家服用/images/emoticon/emoticon42.gif


關於昨天的語音訊號採樣、量化、編碼

在很多語音處理系統中,還需要對語音訊號進行預強調(pre-emphasis)。所謂預強調是指使用一階高通濾波器對訊號的高頻部分進行強調(前面有說過越高頻的聲音資訊越少)。在語音產生的過程中,由於受口鼻輻射的影響,高頻能量會明顯下降,通過預強調可以彌補此效應,預強調的公式如下:
https://chart.googleapis.com/chart?cht=tx&chl=Y(n)%3Dx(n)-%5Calpha%20x(n-1)(alpha是濾波器的係數,通常取0.94~0.97)

如果語音訊號在進行處理之後還要播放,則可以透過加重(de-emphasis)濾波器,來恢復到原始的頻域曲線,和預強調不一樣的是加重濾波器是一階低通濾波器,公式如下:
https://chart.googleapis.com/chart?cht=tx&chl=y(n)%3Dx(n)%2B%5Calpha%20y(n-1)

經過採樣及量化後,接著得透過脈衝碼調制(Pulse Coding Modulation,PCM)來進行編碼,這就是將量化過的採樣點以二進位的形式保存成序列。

在很多情況下,為了節省頻寬,需要降低訊號的串流速度,此時就會運用到更進階更厲害的編碼方式,語音編碼可以分為波形編碼、參數編碼以及混合編碼。

  1. 波形編碼(Waveform Coding)
  • 波形編碼是一種簡單的音訊編碼方法,其中每個採樣值都直接表示為數位形式,通常使用脈衝碼調制(PCM)。
  • 優點是保留了音訊的最高品質,沒有信息損失。
  • 缺點是文件大小較大,不適用於低位元率的壓縮或傳輸。
  1. 參數編碼(Parametric Coding)
  • 參數編碼是一種通過提取音訊的重要參數來進行編碼的方法,而不是每個採樣值都進行編碼。
  • 這些參數可能包括語音的基本頻率、共振峰頻率、共振峰增益等。
  • 參數編碼通常用於低位元率的音訊壓縮,例如音訊編碼器(codec)如MP3和AAC。
  1. 混合編碼(Hybrid Coding)
  • 混合編碼是一種結合波形編碼和參數編碼的方法,以平衡音訊品質和文件大小。
  • 通常,語音或音樂的關鍵部分以波形編碼方式儲存,而其他部分則以參數編碼方式進行。
  • 混合編碼方法在許多音訊編碼標準中得到應用,以實現高品質音訊壓縮。

總之,波形編碼保留了最高的音訊品質,但文件大小大,參數編碼適用於低位元率壓縮,而混合編碼則試圖在品質和壓縮效率之間取得平衡,在現代電腦中,常見的也是混合編碼,選擇哪種編碼方法都會取決於應用的需求。

口鼻輻射是指人體在語音或語言產生過程中,通過口腔和鼻腔中的聲音反射或傳遞,對語音信號進行調整和濾波的現象。


參考書籍:Hey Siri及Ok Google原理:AI語音辨識專案真應用開發
參考網站:今日無
學習對象:ChatGPT


上一篇
DAY10 語音辨識的基礎,來了解語音訊號part4
下一篇
DAY12 語音辨識的基礎,來了解語音訊號part5
系列文
AI與語音辨識30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言