iT邦幫忙

鐵人檔案

2021 iThome 鐵人賽
回列表
AI & Data

機器學習應用於語音相關服務 系列

利用這30天紀錄機器(深度)學習在語音相關領域應用的場景,以及實際實作時會用到的技術、方法、工具等。

鐵人鍊成 | 共 30 篇文章 | 9 人訂閱 訂閱系列文 RSS系列文
DAY 1

Day01 - 人工智慧遇上語音辨識

近年來由於電腦硬體技術的提升使得機器/深度學習(Machine/Deep Learning)技術蓬勃發展,讓人工智慧成為了當紅炸子雞,在各式各樣的領域都能夠看到...

2021-09-13 ‧ 由 pwhsiao 分享
DAY 2

Day02 - 語音辨識的架構、發展過程

雖然目前深度學習的技術是開發語音辨識系統的主流,而且也已經取得不錯的成果。但如果要了解語音辨識系統的架構、運作原理,就必須要從傳統的語音辨識技術開始說起。 傳統...

2021-09-14 ‧ 由 pwhsiao 分享
DAY 3

Day03 - 端到端(end-to-end)語音辨識

在前一天的最後有提到說透過類神經網路(DNN)使得從輸入端到輸出端只透過一個模型就完成語音辨識,像這樣的方法我們稱作端到端(end-to-end)。目前常見的方...

2021-09-15 ‧ 由 pwhsiao 分享
DAY 4

Day04 - 端到端(end-to-end)語音辨識-attention 機制

如果近幾年來有在關注深度學習技術發展的話,一定有聽過 attention model 以及 Attention Is All You Need 這篇非常有名的論...

2021-09-16 ‧ 由 pwhsiao 分享
DAY 5

Day05 - 端到端(end-to-end)語音辨識-CTC part 1

傳統在做語音辨識需要事先標註每個音框的標籤,這麼做會耗費龐大的時間,因此研究人員 Alex Graves 提出 Connectionist Temporal C...

2021-09-17 ‧ 由 pwhsiao 分享
DAY 6

Day06 - 端到端(end-to-end)語音辨識-CTC part 2

前一天提到說 CTC 提出了一個新的概念: 空白(blank),但在最開始的 CTC 設計中是沒有使用空白的,只有移除連續的相同字母,但是這樣會產生兩個問題:...

2021-09-18 ‧ 由 pwhsiao 分享
DAY 7

Day07 - 語音特徵擷取 - MFCC

要讓語音訊號能夠輸入到模型中進行訓練,就必須將其轉換成電腦看得懂的數值格式,也就是語音特徵。 我們使用的語音特徵除了常見的梅爾頻率倒譜係數(Mel-Freque...

2021-09-19 ‧ 由 pwhsiao 分享
DAY 8

Day08 - 語音特徵擷取 - AFE

AFE 特徵是由歐洲電信標準協會所提出的。 AFE 論文參考連結: https://www.etsi.org/deliver/etsi_es/201100_2...

2021-09-20 ‧ 由 pwhsiao 分享
DAY 9

Day09 - 語音特徵正規化

當一個模型的訓練資料和測試資料,彼此之間的資料分佈有不匹配(mismatch)時,模 型的性能會出現大幅的下降。為了減少問題的影響,我們對語音特徵做平均值以及變...

2021-09-21 ‧ 由 pwhsiao 分享
DAY 10

Day10 - 除噪模型

在 Day01 的時候我們有提到過資料可能會有雜訊、噪音,因此所使用的模型架構可以分為兩個階段:除噪以及辨識。在除噪階段,使用乾淨的訓練資料和含有噪音的訓練資料...

2021-09-22 ‧ 由 pwhsiao 分享