DAY17 語音辨識的基礎，來了解語音訊號part10（最後一篇） - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2023 iThome 鐵人賽

DAY 17

0

AI & Data

AI與語音辨識系列第 17 篇

DAY17 語音辨識的基礎，來了解語音訊號part10（最後一篇）

15th鐵人賽

2023-10-02 09:18:05

384 瀏覽

分享至

早安安（已陣亡）
這部分想要講清楚好難，我花了一點時間去整理架構及想清楚要寫什麼，最後發現寫出來的我參考的書內容非常相似，但是書的內容講解的比我深多了，有興趣的朋友歡迎去了解一下這本書喔！！
大推！！（個人覺得很有趣）

昨天講完了窗函數的部分，接著去看看ISTFT吧！

在ISTFT中，由於有訊號的重疊，所以得特別關注其幅度是否發生變化（因為重疊部分沒有處理好就會有怪聲音，先前的文章都有講過喔！），如果不在頻域做處理，又希望重建的播型跟以前一樣，就是x'(n)=x(n)，那就可以為對窗函數、窗長N和幀移M加以限制條件，公式如下：
$\sum_{i}^{} w_a(n-iM)w_s(n-iM)=c$

其中的c為常數，也被稱作COLA條件，為了滿足條件，必須使用週期窗而非對稱窗，前面介紹的漢寧、漢明窗函數在M/N=½, ⅔, ¾, …時，均會滿足COLA條件，布萊克曼則是在M/N=⅔時滿足條件，再來把選擇好的窗函數分解成分析窗 $w_a$ 和合成窗 $w_s$ 的乘積。

這部分介紹了很詳細的語音訊號發聲、聽覺、訊號模型、採樣量化及時頻變換等等很多機制，這些都是語音訊號處理的基礎，很多部分都是截自下面的那本參考書，這本真的寫得很詳細也很有趣，有興趣或者需要實作的可以參考看看這本書！（再推一次）

參考書籍：Hey Siri及Ok Google原理：AI語音辨識專案真應用開發
參考網站：今日無
學習對象：ChatGPT

DAY16 語音辨識的基礎，來了解語音訊號part9

DAY18 語音辨識前端之前言—上

系列文

AI與語音辨識共 30 篇

目錄

RSS系列文訂閱系列文

4 人訂閱

完整目錄

直播研討會

{{ item.subject }}

{{ item.channelVendor }} {{ item.webinarstarted }} |

{{ formatDate(item.duration) }}

直播中

尚未有邦友留言

立即登入留言

參賽組數

1064 組

團體組數

40 組

累計文章數

22209 篇

完賽人數

600 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# windows server linux css react vue.js

IT邦幫忙