DAY11 語音辨識的基礎，來了解語音訊號part4（補充） - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2023 iThome 鐵人賽

DAY 11

0

AI & Data

AI與語音辨識系列第 11 篇

DAY11 語音辨識的基礎，來了解語音訊號part4（補充）

15th鐵人賽

2023-09-26 08:47:08

855 瀏覽

分享至

昨天的採樣、量化及編碼還有更詳細的內容，請大家服用

關於昨天的語音訊號採樣、量化、編碼

在很多語音處理系統中，還需要對語音訊號進行預強調（pre-emphasis）。所謂預強調是指使用一階高通濾波器對訊號的高頻部分進行強調（前面有說過越高頻的聲音資訊越少）。在語音產生的過程中，由於受口鼻輻射的影響，高頻能量會明顯下降，通過預強調可以彌補此效應，預強調的公式如下：
$Y(n)=x(n)-\alpha x(n-1)$ （alpha是濾波器的係數，通常取0.94～0.97）

如果語音訊號在進行處理之後還要播放，則可以透過加重（de-emphasis）濾波器，來恢復到原始的頻域曲線，和預強調不一樣的是加重濾波器是一階低通濾波器，公式如下：
$y(n)=x(n)+\alpha y(n-1)$

經過採樣及量化後，接著得透過脈衝碼調制（Pulse Coding Modulation，PCM）來進行編碼，這就是將量化過的採樣點以二進位的形式保存成序列。

在很多情況下，為了節省頻寬，需要降低訊號的串流速度，此時就會運用到更進階更厲害的編碼方式，語音編碼可以分為波形編碼、參數編碼以及混合編碼。

波形編碼（Waveform Coding）：

波形編碼是一種簡單的音訊編碼方法，其中每個採樣值都直接表示為數位形式，通常使用脈衝碼調制（PCM）。
優點是保留了音訊的最高品質，沒有信息損失。
缺點是文件大小較大，不適用於低位元率的壓縮或傳輸。

參數編碼（Parametric Coding）：

參數編碼是一種通過提取音訊的重要參數來進行編碼的方法，而不是每個採樣值都進行編碼。
這些參數可能包括語音的基本頻率、共振峰頻率、共振峰增益等。
參數編碼通常用於低位元率的音訊壓縮，例如音訊編碼器（codec）如MP3和AAC。

混合編碼（Hybrid Coding）：

混合編碼是一種結合波形編碼和參數編碼的方法，以平衡音訊品質和文件大小。
通常，語音或音樂的關鍵部分以波形編碼方式儲存，而其他部分則以參數編碼方式進行。
混合編碼方法在許多音訊編碼標準中得到應用，以實現高品質音訊壓縮。

總之，波形編碼保留了最高的音訊品質，但文件大小大，參數編碼適用於低位元率壓縮，而混合編碼則試圖在品質和壓縮效率之間取得平衡，在現代電腦中，常見的也是混合編碼，選擇哪種編碼方法都會取決於應用的需求。

口鼻輻射是指人體在語音或語言產生過程中，通過口腔和鼻腔中的聲音反射或傳遞，對語音信號進行調整和濾波的現象。

參考書籍：Hey Siri及Ok Google原理：AI語音辨識專案真應用開發
參考網站：今日無
學習對象：ChatGPT

DAY10 語音辨識的基礎，來了解語音訊號part4

DAY12 語音辨識的基礎，來了解語音訊號part5

系列文

AI與語音辨識共 30 篇

目錄

RSS系列文訂閱系列文

3 人訂閱

完整目錄

熱門推薦

{{ item.subject }}

{{ item.channelVendor }} | {{ item.webinarstarted }} |

{{ formatDate(item.duration) }}

直播中

尚未有邦友留言

立即登入留言

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

AI會議轉錄如何盡可能縮小明文攻擊面？

IT邦幫忙