自動語音辨識(Automatic Speech Recognition, ASR)其實大家應該再熟悉不過了,這個就是語音轉錄的功能
最貼切的應用就是,現在打開手機喊 Siri 或是 OK Google,叫出語音助理之後跟他講話
這時候講的文字會出現在手機上面,會看到他成功轉錄你說話的內容給手機
至於你的 Siri 聽懂你打的字然後做出回應,那就是 NLP(Netral Language Processing) 的工作了
我接下來 ASR 實作都會用 OpenAI 釋出的 Whisper 語音模型為主體,他其實直接用的結果就不賴了
只是我們追求更好的準確度!所以除了原本釋出的版本,我們也會利用 huggingface 這個神奇的東西來進行 fine-tuning
hugggingface 可以當作一個充滿各種機器學習東西的論壇,大家可以把自己訓練好的模型丟上去給大家使用,也可以下載其他人的模型
fine-tune 則是對模型做微調,原始模型轉錄出來的結果可能不盡人意,這時我們就要想辦法去微調
過程聽起來挺簡單的,但其實一路上也遇到了不少雜七雜八的事情,希望我在這邊的紀錄能幫到在同一條船上的同伴們