iT邦幫忙

2023 iThome 鐵人賽

DAY 6
0
AI & Data

AI與語音辨識系列 第 6

DAY6 入門認識語音辨識part5(入門最後一篇)

  • 分享至 

  • xImage
  •  

早上好,希望您有一杯非常好喝的咖啡~


點對點語音辨識工具套件

昨天已經介紹了兩個語音辨識的套件,介紹完下面三種,基本上你已經可以說是了解了語音辨識的皮毛,是認識語音辨識基礎的最後一篇,讓我們快速進入主題,接著繼續介紹點對點語音套件⋯⋯

  1. Wenet:這是一個開源的自動語音辨識(ASR)系統,主要在實現高效的語音辨識技術。它主要用於將語音轉換為文本。其支持多語言的語音辨識、靈活的架構(可以自定義特徵處理、模型結構和訓練流程,以適應不同的應用場景),且Wenet擁有一個活躍的開發和用戶社區,提供了文檔、教程和技術支持,有助於用戶更好地使用和理解這個系統。

  2. DeepSpeech:DeepSpeech是Mozilla開源的自動語音辨識(ASR)引擎,使用深度學習技術將語音轉換為文字。它具有高度準確性的語音辨識,支援多語言,並具備跨平台能力。DeepSpeech的開源性質使其成為開發自定義語音辨識應用的理想工具,無論是在語音識別系統、虛擬助手、字幕生成還是其他語音相關應用中,都具有廣泛的潛力。它的模型和訓練數據可供免費下載和使用,並吸引了全球社區的參與和貢獻,以不斷改進和擴展其功能。

  3. 參考的書籍有提到新一代的Kaldi,其分為三個部分:

  • Lhotse負責所有的資料準備及其相關工作,使用Python開發,可用於其他語音辨識工具套件。
  • K2將FST及FSA演算法融合到其他學習模型,讓開發人員可以更快速建構CTC、LF-MMI或其他點對點語音辨識模型。
  • Icefall則是Kaldi中egs(示例)的角色。

參考書籍:Hey Siri及Ok Google原理:AI語音辨識專案真應用開發
參考網站:今日無
學習對象:ChatGPT


上一篇
DAY5 入門認識語音辨識part4
下一篇
DAY7 語音辨識的基礎,來了解語音訊號part1
系列文
AI與語音辨識30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言