iT邦幫忙

2023 iThome 鐵人賽

DAY 16
0
自我挑戰組

深度學習的學習 & ASR 中文語音辨識系列 第 16

【Day 16】ASR 中文語音辨識

  • 分享至 

  • xImage
  •  

自動語音辨識(Automatic Speech Recognition, ASR)其實大家應該再熟悉不過了,這個就是語音轉錄的功能
最貼切的應用就是,現在打開手機喊 Siri 或是 OK Google,叫出語音助理之後跟他講話
這時候講的文字會出現在手機上面,會看到他成功轉錄你說話的內容給手機

至於你的 Siri 聽懂你打的字然後做出回應,那就是 NLP(Netral Language Processing) 的工作了


我接下來 ASR 實作都會用 OpenAI 釋出的 Whisper 語音模型為主體,他其實直接用的結果就不賴了
只是我們追求更好的準確度!所以除了原本釋出的版本,我們也會利用 huggingface 這個神奇的東西來進行 fine-tuning

hugggingface 可以當作一個充滿各種機器學習東西的論壇,大家可以把自己訓練好的模型丟上去給大家使用,也可以下載其他人的模型

fine-tune 則是對模型做微調,原始模型轉錄出來的結果可能不盡人意,這時我們就要想辦法去微調

過程聽起來挺簡單的,但其實一路上也遇到了不少雜七雜八的事情,希望我在這邊的紀錄能幫到在同一條船上的同伴們


上一篇
【Day 15】深度學習的學習:Multi Classification
下一篇
【Day 17】Whisper 使用前的環境建置 - Anaconda
系列文
深度學習的學習 & ASR 中文語音辨識30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言