iT邦幫忙

2023 iThome 鐵人賽

DAY 9
0
AI & Data

AI與語音辨識系列 第 9

DAY9 語音辨識的基礎,來了解語音訊號part3

  • 分享至 

  • xImage
  •  

早安安~


語音訊號的感知

我們必須理解人們是如何聽到聲音,才可以讓模型更有效率的學習,人耳可聽到的頻率介於20赫茲到20000赫茲之間,語音訊號傳出後,藉由介質以聲波傳遞,聲波被外耳郭收集進入外耳道,引起鼓膜震動,傳遞神經訊號給大腦,引發聽覺。

而人耳對於不同頻率靈敏度是不同的,可以藉由響度來衡量,就是聲音大小,響度的單位是方(phon),它等於1000赫茲的訊號在對應數位的聲壓級上產生的主觀聽感(意即響度和聲壓級的關係會隨著頻率不同而改變),基本上人耳在2000赫茲到4000赫茲的範圍內是最靈敏,而超過8000赫茲的聲音對語音訊號來說資訊也非常有限,所以語音訊號的接受範圍是8000赫茲下,而這樣對人本身的會話來說已經非常足夠了!

人耳對於音高的感知不均,基本上頻率變化及音高感知有很大的關係,在低頻中,同樣頻率變化的音高感知,會比高頻的音高感知來的更好,意即在高頻時,我們聽不太出來頻率變高時,音調也變高了。在計算上,我們使用Mel(梅爾)來表示人對音高的主觀感知,計算公式如下:
https://chart.googleapis.com/chart?cht=tx&chl=f_%7BMel%7D%3D25951%5Clog_%7B10%7D%7B(1%2B%5Cfrac%7Bf%7D%7B700%7D)%7D

梅爾(Mel)是一個用於音頻和語音處理的單位,通常用於描述音調或頻譜特性的感知尺度。梅爾尺度是一種非線性的尺度,它更符合人類聽覺系統對音頻的感知方式。
梅爾尺度的主要應用之一是梅爾頻率倒譜係數(MFCCs),這是語音處理中常用的特徵之一。MFCCs通過將音訊信號轉換為梅爾尺度的頻譜特徵,然後提取出最重要的信息,用於語音識別、語音合成和聲音處理等任務。
梅爾尺度的主要特點是在低頻區域更加密集,而在高頻區域更加分散。這種感知尺度的特性使得它更適合描述人類聽覺系統對聲音的感知,因為人類聽覺對於低頻音調更敏感,而對於高頻音調不太敏感。
總之,梅爾是一個用於描述音頻感知特性的尺度,特別在語音處理中具有重要作用,例如梅爾頻率倒譜係數(MFCCs)用於語音處理中的特徵提取。它更符合人類聽覺系統的感知方式。


參考書籍:Hey Siri及Ok Google原理:AI語音辨識專案真應用開發
參考網站:今日無
學習對象:ChatGPT


上一篇
DAY8 語音辨識的基礎,來了解語音訊號part2
下一篇
DAY10 語音辨識的基礎,來了解語音訊號part4
系列文
AI與語音辨識30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言