iT邦幫忙

鐵人檔案

2021 iThome 鐵人賽
回列表
AI & Data

機器學習應用於語音相關服務 系列

利用這30天紀錄機器(深度)學習在語音相關領域應用的場景,以及實際實作時會用到的技術、方法、工具等。

鐵人鍊成 | 共 30 篇文章 | 9 人訂閱 訂閱系列文 RSS系列文
DAY 11

Day11 - 除噪模型: FCDAE

全連接神經網路的層和層之間,神經元都是互相連接,而層內的神經元彼此沒有連接。我們會使用兩種 FCDAE 架構,其輸入資料是含有噪音的多訓練資料,將 11 個連續...

2021-09-23 ‧ 由 pwhsiao 分享
DAY 12

Day12 - 辨識模型 part1

完成了第一階段的除噪模型之後,接下來要進入辨識階段,利用乾淨狀態資料和降噪後的含有噪音的訓練資料來訓練兩個語音辨識模型,分別是傳統的HMM-GMM 模型以及CT...

2021-09-24 ‧ 由 pwhsiao 分享
DAY 13

Day13 - 辨識模型 part2

model.py 會透過 DBiRNN class 來建構 CTC 模型,前一天中提到過我們是使用 LSTM 架構,也可以根據參數選擇使用基本的 RNN 架構...

2021-09-25 ‧ 由 pwhsiao 分享
DAY 14

Day14 - 模型評估 part 1

在今天的文章中我們會使用詞正確率來評估模型的效能,詞正確率是由詞錯誤率(Word Error Rate, WER)轉換後得到。為 了計算詞錯誤率,我們將預測出的...

2021-09-26 ‧ 由 pwhsiao 分享
DAY 15

Day15 - 模型評估 part2

前面提到過使用不同架構(FCDAE(3h),FCDAE(5h))的全連接神經網路除噪模型對兩個語音特徵做除噪,效果如表 1、表 2。 語音特徵 | 辨識模型 |...

2021-09-27 ‧ 由 pwhsiao 分享
DAY 16

Day16 - 語音辨識神級工具-Kaldi part1

Kaldi 是由語音辨識領域中的神級人物 - Dan Povey 所開發出來一套以 C++ 撰寫的開源工具,使用上則是會以 shell script 為主,主要...

2021-09-28 ‧ 由 pwhsiao 分享
DAY 17

Day17 - 語音辨識神級工具-Kaldi part2

首先介紹的是發音詞典處理,我們必須先準備一份發音詞典(lexicon),格式會長得像以下的樣子。左邊就是詞,右邊則是這個詞對應的拼音,不同的拼音系統會產生出不同...

2021-09-29 ‧ 由 pwhsiao 分享
DAY 18

Day18 - 語音辨識神級工具-Kaldi part3

今天我們進入kaldi訓練神經網路模型的部分,程式的部分是在 local/chain/tuning/run_tdnn.sh 中。程式主要分為以下幾個部分:...

2021-09-30 ‧ 由 pwhsiao 分享
DAY 19

Day 19 - 語音情緒辨識簡介

語言除了能夠傳達字面上的訊息之外,也蘊含了說話者所要表達的情緒,情緒的展現能夠讓對方更清楚的了解訊息所代表的涵義。情緒的描述方式主要可分為**類別取向(cate...

2021-10-01 ‧ 由 pwhsiao 分享
DAY 20

Day20 - 資料集介紹&語音特徵

我們所使用的資料集包含5類情緒: 憤怒(Angry)、強調(Emphatic)、中性(Neutral)、正面(Positive)及其餘(Rest)(剩下情緒類別...

2021-10-02 ‧ 由 pwhsiao 分享