早上好,希望您有一杯非常好喝的咖啡~
昨天已經介紹了兩個語音辨識的套件,介紹完下面三種,基本上你已經可以說是了解了語音辨識的皮毛,是認識語音辨識基礎的最後一篇,讓我們快速進入主題,接著繼續介紹點對點語音套件⋯⋯
Wenet:這是一個開源的自動語音辨識(ASR)系統,主要在實現高效的語音辨識技術。它主要用於將語音轉換為文本。其支持多語言的語音辨識、靈活的架構(可以自定義特徵處理、模型結構和訓練流程,以適應不同的應用場景),且Wenet擁有一個活躍的開發和用戶社區,提供了文檔、教程和技術支持,有助於用戶更好地使用和理解這個系統。
DeepSpeech:DeepSpeech是Mozilla開源的自動語音辨識(ASR)引擎,使用深度學習技術將語音轉換為文字。它具有高度準確性的語音辨識,支援多語言,並具備跨平台能力。DeepSpeech的開源性質使其成為開發自定義語音辨識應用的理想工具,無論是在語音識別系統、虛擬助手、字幕生成還是其他語音相關應用中,都具有廣泛的潛力。它的模型和訓練數據可供免費下載和使用,並吸引了全球社區的參與和貢獻,以不斷改進和擴展其功能。
參考的書籍有提到新一代的Kaldi,其分為三個部分:
參考書籍:Hey Siri及Ok Google原理:AI語音辨識專案真應用開發
參考網站:今日無
學習對象:ChatGPT