【Day 16】ASR 中文語音辨識

2023 iThome 鐵人賽

DAY 16

自我挑戰組

深度學習的學習 & ASR 中文語音辨識系列第 16 篇

15th鐵人賽 asr

leo271828

2023-10-01 23:58:21

1246 瀏覽

分享至

自動語音辨識(Automatic Speech Recognition, ASR)其實大家應該再熟悉不過了，這個就是語音轉錄的功能
最貼切的應用就是，現在打開手機喊 Siri 或是 OK Google，叫出語音助理之後跟他講話
這時候講的文字會出現在手機上面，會看到他成功轉錄你說話的內容給手機

至於你的 Siri 聽懂你打的字然後做出回應，那就是 NLP(Netral Language Processing) 的工作了

我接下來 ASR 實作都會用 OpenAI 釋出的 Whisper 語音模型為主體，他其實直接用的結果就不賴了
只是我們追求更好的準確度！所以除了原本釋出的版本，我們也會利用 huggingface 這個神奇的東西來進行 fine-tuning

hugggingface 可以當作一個充滿各種機器學習東西的論壇，大家可以把自己訓練好的模型丟上去給大家使用，也可以下載其他人的模型

fine-tune 則是對模型做微調，原始模型轉錄出來的結果可能不盡人意，這時我們就要想辦法去微調

過程聽起來挺簡單的，但其實一路上也遇到了不少雜七雜八的事情，希望我在這邊的紀錄能幫到在同一條船上的同伴們