早安昂~
因為點對點語音辨識的發展,目前有非常多基於TensorFlor或者Python等深度學習的語音辨識工具套件,今天先簡易的介紹以下兩種:
ESPNet:這是以點對點語音辨識和語音合成方法為主的工具套件,支持兩個深度學習框架:PyTorch及Chainer,因為是和Kaldi(昨天又說喔)同一個實驗室誕生的,所以有很多功能都依循Kaldi,如資料處理、特徵提取等,但他還支援語音增強、風格轉換、語音翻譯及口語理解等強大功能。
SpeechBrain:這個是深度學習的三巨頭之一,是由很多科技公司共同發布的原始碼語音工具套件,其中包括Samsung、PyTorch、Dolby等等等很多很大間的公司,主要特點包括提供預訓練模型、基於YAML的超參設定、多GPU處理,及訓練PyTorch分散式data-parallel(資料平行)推理。
TensorFlow是由Google開發的開源機器學習框架,用於訓練和部署深度學習模型。它支援跨平台、多種硬體,並具靈活性。TensorFlow廣泛應用於圖像處理、語音辨識、自然語言處理等領域,並具有強大的社區支援、自動微分功能,以及相關工具和庫,如Keras和TensorBoard。)
Data parallelism(資料平行)是一種並行計算的方法,其中多個處理單元同時處理不同的數據。在資料平行計算中,訓練數據被分成多個批次(batches),每個批次都在不同的處理單元上進行處理,通常使用相同的模型參數。這樣可以同時處理多個數據批次,從而提高訓練速度。當訓練過程中需要大量數據時,資料平行計算尤為有用,因為它能夠充分利用多核CPU或多個GPU的計算能力。
參考書籍:Hey Siri及Ok Google原理:AI語音辨識專案真應用開發
參考網站:今日無
學習對象:ChatGPT