iT邦幫忙

2023 iThome 鐵人賽

DAY 10
0
AI & Data

AI與語音辨識系列 第 10

DAY10 語音辨識的基礎,來了解語音訊號part4

  • 分享至 

  • xImage
  •  

早安!


語音訊號的採樣、量化、編碼

語音訊號的數位處理涉及到三個關鍵步驟:採樣、量化和編碼。這些步驟使得模擬的連續語音波形轉換為數位形式,以便計算機能夠處理和存儲。

  1. 採樣(Sampling)
  • 控制著語音訊號在時間上的數位化。
  • 語音是連續的模擬信號,但計算機需要將其轉換為離散的樣本。這是通過在持續的時間內以固定的間隔(稱為採樣率或取樣頻率)捕捉語音波形的瞬時值來實現的。採樣是以一定的時間間隔T對連續訊號取值的過程,對於模擬訊號,其採樣過程可以寫成下面方程式:
    https://chart.googleapis.com/chart?cht=tx&chl=x(n)%3Dx_%7Ba%7D(nT)
  • 通常,語音採樣率為每秒數千次(例如,16,000 Hz),但它可以根據特定應用的要求而變化。
  1. 量化(Quantization)
  • 控制著語音訊號在幅度上的離散化,其可分成均勻量化及非均勻量化。
  • 語音波形的幅度值在連續範圍內變化,但需要將這些值轉換為有限的數位位元以進行儲存和處理。
  • 這是通過將連續的幅度值映射到最接近的離散幅度值,稱為量化級別,來實現的。
  • 量化的階級數會設成2的整數次冪。
  1. 編碼(Encoding)
  • 控制著如何將採樣和量化後的數位數據表示為位元流。
  • 語音數位數據需要以某種形式進行編碼,以便儲存或傳輸。
  • 常見的編碼方法包括脈衝編碼調變(PCM),其中每個樣本的幅度值轉換為二進制數位位元,或其他壓縮編碼方法,如MP3或AAC,以減小數據量。

參考書籍:Hey Siri及Ok Google原理:AI語音辨識專案真應用開發
參考網站:今日無
學習對象:ChatGPT


上一篇
DAY9 語音辨識的基礎,來了解語音訊號part3
下一篇
DAY11 語音辨識的基礎,來了解語音訊號part4(補充)
系列文
AI與語音辨識30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言