iT邦幫忙

鐵人檔案

2021 iThome 鐵人賽
回列表
AI & Data

機器學習應用於語音相關服務 系列

利用這30天紀錄機器(深度)學習在語音相關領域應用的場景,以及實際實作時會用到的技術、方法、工具等。

鐵人鍊成 | 共 30 篇文章 | 9 人訂閱 訂閱系列文 RSS系列文
DAY 21

Day21 - 前處理: 語者正規化

前一天在說明使用的語音特徵時有提到,模型有靜態模型跟動態模型兩種。在訓練靜態模型時,因為資料集中的語音檔是由不同人(語者,21名男性;30名女性)所錄製的,因此...

2021-10-03 ‧ 由 pwhsiao 分享
DAY 22

Day22 - 前處理: 資料平衡&Label 調整

在 Day20 介紹資料集時有提到過五類情緒有資料不平衡的問題,為了處理資料不平衡的問題,我們會在 loss function(crossentropy)上加入...

2021-10-04 ‧ 由 pwhsiao 分享
DAY 23

Day23 - 靜態模型 part1 (MLP)

完整的語音情緒辨識系統流程如圖 1。語音訊號先經過特徵擷取的過程擷取出聲學特徵,再將聲學特徵進行前處理,經過前處理過後的特徵做為分類模型的輸入並進行訓練。分類模...

2021-10-05 ‧ 由 pwhsiao 分享
DAY 24

Day24 - 靜態模型 part2 (CNN)

在 CNN-based 的架構中,會使用三種不同的 CNN 架構: Basic CNN Multi-Scale CNN Multi-Scale CNN wit...

2021-10-06 ‧ 由 pwhsiao 分享
DAY 25

Day25 - 靜態模型 part3 (CNN)

今天的內容會說明將 attention 機制加入到昨天提到的 multi-scale CNN 當中。CNN 中的 attention 機制是受到自然界中生物的視...

2021-10-07 ‧ 由 pwhsiao 分享
DAY 26

Day26 - 動態模型 part1 (LSTM)

動態模型我們會使用 LSTM-based 架構,並分成兩種: Basic LSTM Last-frame only Mean-pooling over t...

2021-10-08 ‧ 由 pwhsiao 分享
DAY 27

Day27 - 動態模型 part2 (LSTM with attention)

回顧一下昨天提到的,我們希望透過將 attention 機制加到 LSTM 中藉此找出每段語音中重要的部份。因此原本的 LSTM 架構就會修改成圖 1圖1: L...

2021-10-09 ‧ 由 pwhsiao 分享
DAY 28

Day28 - 集成學習 (ensemble learning) part1

集成學習 (ensemble learning) 的概念在於透過結合多個不同的模型來達到不同模型之間彼此互補的效果,簡單來說就是 「三個臭皮匠勝過一個諸葛亮」。...

2021-10-10 ‧ 由 pwhsiao 分享
DAY 29

Day29 - 集成學習 (ensemble learning) part2

今天要繼續介紹另外兩個集成學習的方法 max-out unit 結合與內插(interpolation)。 max-out unit 的結合方式如圖 1。為了...

2021-10-11 ‧ 由 pwhsiao 分享
DAY 30

Day30 - 模型複雜度分析

在最後一天的內容中,我們會以參數量、乘法數、訓練過程中每一個epoch所需的時間與測試過程中每一筆資料樣本所需的時間來評估靜態與動態模型的複雜度。MLP、CNN...

2021-10-12 ‧ 由 pwhsiao 分享