iT邦幫忙

2023 iThome 鐵人賽

DAY 12
0
AI & Data

AI與語音辨識系列 第 12

DAY12 語音辨識的基礎,來了解語音訊號part5

  • 分享至 

  • xImage
  •  

早上好呀!


時域與頻域的愛恨糾葛

語音訊號的時頻變換是一種數學技術,用於將語音訊號從時域(時間)轉換為頻域(頻率),先簡單介紹一下我們之後會一直討論到的轉換方式。

  1. FFT(快速傅立葉轉換,Fast Fourier Transform)
  • FFT是一種高效的算法,用於計算離散傅立葉轉換(DFT),將時域訊號轉換為頻域。
  • 它通常用於計算信號的頻譜,以便分析信號的頻率成分。
  1. IFFT(逆傅立葉轉換,Inverse Fast Fourier Transform)
  • IFFT是FFT的逆過程,將頻域訊號轉換回時域。
  • 在通信和語音處理中,它通常用於從頻域訊號中重建時域訊號。
  1. STFT(短時傅立葉轉換,Short-Time Fourier Transform)
  • STFT是將語音訊號分成多個小時間段,然後對每個時間段應用FFT的方法。
  • 它產生一個時頻表示,稱為時頻圖(Spectrogram),顯示語音在不同時間和頻率上的強度變化。
  • STFT在語音處理中廣泛用於特徵提取、語音識別和語音合成。
  1. ISTFT(逆短時傅立葉轉換,Inverse Short-Time Fourier Transform)
  • ISTFT是STFT的逆過程,它將時頻表示恢復為原始語音訊號。
  • 在語音合成中,ISTFT用於從頻域訊號生成時域訊號。
  1. COLA(常數重疊相加,Constant Overlap-Add)
  • C指的是常數,是在ISTFT之後產生的條件。

先大致的了解以上名詞及定義,就可以來看後面的文章,更深入了解上面這些方法之間的關係!


參考書籍:Hey Siri及Ok Google原理:AI語音辨識專案真應用開發
參考網站:今日無
學習對象:ChatGPT


上一篇
DAY11 語音辨識的基礎,來了解語音訊號part4(補充)
下一篇
DAY13 語音辨識的基礎,來了解語音訊號part6
系列文
AI與語音辨識30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言