前一天在說明使用的語音特徵時有提到,模型有靜態模型跟動態模型兩種。在訓練靜態模型時,因為資料集中的語音檔是由不同人(語者,21名男性;30名女性)所錄製的,因此...
在 Day20 介紹資料集時有提到過五類情緒有資料不平衡的問題,為了處理資料不平衡的問題,我們會在 loss function(crossentropy)上加入...
完整的語音情緒辨識系統流程如圖 1。語音訊號先經過特徵擷取的過程擷取出聲學特徵,再將聲學特徵進行前處理,經過前處理過後的特徵做為分類模型的輸入並進行訓練。分類模...
在 CNN-based 的架構中,會使用三種不同的 CNN 架構: Basic CNN Multi-Scale CNN Multi-Scale CNN wit...
今天的內容會說明將 attention 機制加入到昨天提到的 multi-scale CNN 當中。CNN 中的 attention 機制是受到自然界中生物的視...
動態模型我們會使用 LSTM-based 架構,並分成兩種: Basic LSTM Last-frame only Mean-pooling over t...
回顧一下昨天提到的,我們希望透過將 attention 機制加到 LSTM 中藉此找出每段語音中重要的部份。因此原本的 LSTM 架構就會修改成圖 1圖1: L...
集成學習 (ensemble learning) 的概念在於透過結合多個不同的模型來達到不同模型之間彼此互補的效果,簡單來說就是 「三個臭皮匠勝過一個諸葛亮」。...
今天要繼續介紹另外兩個集成學習的方法 max-out unit 結合與內插(interpolation)。 max-out unit 的結合方式如圖 1。為了...
在最後一天的內容中,我們會以參數量、乘法數、訓練過程中每一個epoch所需的時間與測試過程中每一筆資料樣本所需的時間來評估靜態與動態模型的複雜度。MLP、CNN...