iT邦幫忙

2023 iThome 鐵人賽

DAY 17
0
AI & Data

AI與語音辨識系列 第 17

DAY17 語音辨識的基礎,來了解語音訊號part10(最後一篇)

  • 分享至 

  • xImage
  •  

早安安(已陣亡)
這部分想要講清楚好難,我花了一點時間去整理架構及想清楚要寫什麼,最後發現寫出來的我參考的書內容非常相似,但是書的內容講解的比我深多了,有興趣的朋友歡迎去了解一下這本書喔!!
大推!!(個人覺得很有趣)


昨天講完了窗函數的部分,接著去看看ISTFT吧!

在ISTFT中,由於有訊號的重疊,所以得特別關注其幅度是否發生變化(因為重疊部分沒有處理好就會有怪聲音,先前的文章都有講過喔!),如果不在頻域做處理,又希望重建的播型跟以前一樣,就是x'(n)=x(n),那就可以為對窗函數、窗長N和幀移M加以限制條件,公式如下:
https://chart.googleapis.com/chart?cht=tx&chl=%5Csum_%7Bi%7D%5E%7B%7D%20w_a(n-iM)w_s(n-iM)%3Dc

其中的c為常數,也被稱作COLA條件,為了滿足條件,必須使用週期窗而非對稱窗,前面介紹的漢寧、漢明窗函數在M/N=½, ⅔, ¾, …時,均會滿足COLA條件,布萊克曼則是在M/N=⅔時滿足條件,再來把選擇好的窗函數分解成分析窗https://chart.googleapis.com/chart?cht=tx&chl=w_a 和合成窗https://chart.googleapis.com/chart?cht=tx&chl=w_s 的乘積。

這部分介紹了很詳細的語音訊號發聲、聽覺、訊號模型、採樣量化及時頻變換等等很多機制,這些都是語音訊號處理的基礎,很多部分都是截自下面的那本參考書,這本真的寫得很詳細也很有趣,有興趣或者需要實作的可以參考看看這本書!(再推一次)
/images/emoticon/emoticon37.gif


參考書籍:Hey Siri及Ok Google原理:AI語音辨識專案真應用開發
參考網站:今日無
學習對象:ChatGPT


上一篇
DAY16 語音辨識的基礎,來了解語音訊號part9
下一篇
DAY18 語音辨識前端之前言—上
系列文
AI與語音辨識30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言