近年來由於電腦硬體技術的提升使得機器/深度學習(Machine/Deep Learning)技術蓬勃發展,讓人工智慧成為了當紅炸子雞,在各式各樣的領域都能夠看到...
雖然目前深度學習的技術是開發語音辨識系統的主流,而且也已經取得不錯的成果。但如果要了解語音辨識系統的架構、運作原理,就必須要從傳統的語音辨識技術開始說起。 傳統...
在前一天的最後有提到說透過類神經網路(DNN)使得從輸入端到輸出端只透過一個模型就完成語音辨識,像這樣的方法我們稱作端到端(end-to-end)。目前常見的方...
如果近幾年來有在關注深度學習技術發展的話,一定有聽過 attention model 以及 Attention Is All You Need 這篇非常有名的論...
傳統在做語音辨識需要事先標註每個音框的標籤,這麼做會耗費龐大的時間,因此研究人員 Alex Graves 提出 Connectionist Temporal C...
前一天提到說 CTC 提出了一個新的概念: 空白(blank),但在最開始的 CTC 設計中是沒有使用空白的,只有移除連續的相同字母,但是這樣會產生兩個問題:...
要讓語音訊號能夠輸入到模型中進行訓練,就必須將其轉換成電腦看得懂的數值格式,也就是語音特徵。 我們使用的語音特徵除了常見的梅爾頻率倒譜係數(Mel-Freque...
AFE 特徵是由歐洲電信標準協會所提出的。 AFE 論文參考連結: https://www.etsi.org/deliver/etsi_es/201100_2...
當一個模型的訓練資料和測試資料,彼此之間的資料分佈有不匹配(mismatch)時,模 型的性能會出現大幅的下降。為了減少問題的影響,我們對語音特徵做平均值以及變...
在 Day01 的時候我們有提到過資料可能會有雜訊、噪音,因此所使用的模型架構可以分為兩個階段:除噪以及辨識。在除噪階段,使用乾淨的訓練資料和含有噪音的訓練資料...