iT邦幫忙

2021 iThome 鐵人賽

DAY 20
0
AI & Data

機器學習應用於語音相關服務系列 第 20

Day20 - 資料集介紹&語音特徵

  • 分享至 

  • xImage
  •  

我們所使用的資料集包含5類情緒: 憤怒(Angry)、強調(Emphatic)、中性(Neutral)、正面(Positive)及其餘(Rest)(剩下情緒類別的總和)。
各類情緒的句數如表 1:
/ | Angry | Emphatic | Neutral | Positive | Rest | Total
------------- | -------------
訓練集 | 881 | 2,093 | 5,590 | 674 | 721 | 9,959
測試集 | 611 | 1,508 | 5,377 | 215 | 546 | 8,257
Total | 1,492 | 3,601 | 10,967 | 889 | 1,267 | 8,257
表1: 資料集各類別句數

因為五類情緒資料不平衡的關係,訓練集及測試集上各類別的資料分布差異極大,因此辨識結果主要是使用未加權平均召回率(Unweighted Average recall, UA)作為評估的標準
https://chart.googleapis.com/chart?cht=tx&chl=UA%3D%5Cfrac%7B1%7D%7BC%7D%5Csum_%7Bi%3D1%7D%5E%7BC%7D%5Cfrac%7BA_%7Bii%7D%7D%7B%5Csum_%7Bj%3D1%7D%5E%7BC%7DA_%7Bij%7D%7D
其中,https://chart.googleapis.com/chart?cht=tx&chl=A_%7Bii%7D 為類別 i 被正確分類為類別 i 的句數,https://chart.googleapis.com/chart?cht=tx&chl=A_%7Bij%7D 為類別 i 被分類為類別 j 的句數,而C為總類別數(C = 5)。

與前面在做語音辨識相同,在做語音情緒辨識時也需要擷取語音特徵。在這邊我們使用的是openSMILE這項工具,參考網站連結如下

https://www.audeering.com/research/opensmile/

擷取出來的特徵包含16個低階參數(Low-Level Descriptors, LLDs)及其一階導數12個泛函(Functionals)。16個低階參數為(Day07 有詳細介紹):

  • 梅爾頻率倒譜係數(Mel-Frequency Cepstral Coefficients,MFCCs)(1-12維)
  • 均方根能量(RMS energy)
  • 過零率(Zero Crossing Rate, ZCR)
  • 諧音噪音比(Harmonics- to-Noise Ratio, HNR)
  • 基本頻率(fundamental frequency, F0)

12個泛函(Functionals)為:

  • 平均值(mean)、最大, 最小值(max, min)
  • 標準差(standard deviation)
  • 峰度(kurtosis)、偏移態(skewness)
  • 相對位置(relative position)、範圍(range=max-min)
  • 兩個線性迴歸係數(linear regression coefficients): offset, slope
  • 均方根誤差(Mean Squared Error, MSE)

在後續的實作中,會將模型分為兩種:

  1. 動態模型: 模型的輸入特徵長度會隨著語音的長度而變化,其特徵參數為對於每一個低階參數並經過一階導數,最後得到的特徵集為16 × 2 = 32 維特徵參數
  2. 靜態模型: 模型的輸入特徵長度固定,其特徵參數為對於每一個低階參數,經過一階導數計算後再經由12個泛函計 算,最後得到的特徵集為16 × 12 × 2 = 384 維特徵參數

有了資料集與語音特徵後,明天會介紹對資料集做前處理。


上一篇
Day 19 - 語音情緒辨識簡介
下一篇
Day21 - 前處理: 語者正規化
系列文
機器學習應用於語音相關服務30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言