Day 26 AI核心應用:電腦聽覺與視覺(語音辨識)

2023 iThome 鐵人賽

DAY 26

AI & Data

嘗試在AI世界闖蕩系列第 26 篇

15th鐵人賽

tiffanyxxx32

團隊臣無禮

2023-10-11 08:18:45

1085 瀏覽

分享至

語音辨識Voice Recognition

機器將人類的自然語言由聲音的音波訊號轉換成相對應的語言與語句的過程。

音訊處理

架構:
①音訊Sound Signal:人類能聽到的聲音頻率。
②基本頻率Fundamental Frequency:一個訊號在1秒內所能產生的週期個數。
③聲波Sound Wave:由振動元的振動所產生的空氣振動，形成空氣一鬆一緊、一緊一鬆的壓力波Pressure Wave。
④聲波的數位化:為了讓機器能瞭解連續性的類比訊號，必須將類比轉換成數據化Analog to Digital。
其中步驟:
Step1.將連續類比的聲波轉換成電壓訊號Voltage Signal，接下來為了行程數據，就要將此訊號作時間(橫軸)與幅度(縱軸)的離散化。
Step2.橫軸的時間離散化
Step3.縱軸幅度的離散化

聲學特徵Acoustic Feature

在一段音框內抽取包括音量、音高、音色等數位式向量的特徵。
音框Frame:音訊所切割而成的小段音訊。
音量Volume:音訊的強度，以音訊的震幅大小來表示。
音高Pitch:以每秒出現的基本周期數來代表。
音色Timbre:音高+音量，在一段音框內不同的頻率與不同頻率上的強度分配，此組合稱之為頻譜。

模式:
1.梅爾倒頻係數Mel-Frequency Cepstral Coefficients(MFCC):一個可以用來代表短期音訊的頻譜。
2.時頻譜Spectrogram:用來表達聲音頻譜。