我們所使用的資料集包含5類情緒: 憤怒(Angry)、強調(Emphatic)、中性(Neutral)、正面(Positive)及其餘(Rest)
(剩下情緒類別的總和)。
各類情緒的句數如表 1:
/ | Angry | Emphatic | Neutral | Positive | Rest | Total
------------- | -------------
訓練集 | 881 | 2,093 | 5,590 | 674 | 721 | 9,959
測試集 | 611 | 1,508 | 5,377 | 215 | 546 | 8,257
Total | 1,492 | 3,601 | 10,967 | 889 | 1,267 | 8,257
表1: 資料集各類別句數
因為五類情緒資料不平衡的關係,訓練集及測試集上各類別的資料分布差異極大,因此辨識結果主要是使用未加權平均召回率(Unweighted Average recall, UA)
作為評估的標準
其中, 為類別 i 被正確分類為類別 i 的句數, 為類別 i 被分類為類別 j 的句數,而C為總類別數(C = 5)。
與前面在做語音辨識相同,在做語音情緒辨識時也需要擷取語音特徵。在這邊我們使用的是openSMILE
這項工具,參考網站連結如下
擷取出來的特徵包含16個低階參數(Low-Level Descriptors, LLDs)
及其一階導數
與12個泛函(Functionals)
。16個低階參數為(Day07 有詳細介紹):
12個泛函(Functionals)為:
在後續的實作中,會將模型分為兩種:
16 × 2 = 32 維特徵參數
16 × 12 × 2 = 384 維特徵參數
有了資料集與語音特徵後,明天會介紹對資料集做前處理。