昨天看完了對於文字類型資料特徵做提取的模型,有沒有對情緒分析更感興趣了呢?
(還是直接放棄了)
今天我們要來看看,在對於「聲音」的特徵提取上,我們可以有哪些方法。
前面我們說到的文字提取,最常用到的基礎是「詞嵌入」、Transfer、注意力機制等等,那聲音的部分呢?是不是也有相關的模型基礎?
答案是有的。
音訊、聲學這方面的模型基礎主要是利用LSTM、雙向LSTM來去做分析,但這部分比較常用在人工提取。
在深度學習發展起來以後,也慢慢有一些相關的方法出現,比如利用CNN去提取數據,然後再傳到分類器中進行分類。
再進一點到程式庫的部分呢,最近比較常見的有 OpenEAR、openSMILE、LibROSA、COVAREP等等開源的程式庫,下面我們來稍微介紹一下:
主要依賴的基礎是SVM(支持向量機),來將聲音中的信號投射到情感類別上。在這個資料庫中有預定義好的資料集,使用者也可以自行添加資料集來訓練模型。
OpenEAR相較於其他聲音類型的特徵提取程式庫,是比較專注在情緒分析上的,用語音的強度、速度、特徵等等資訊去定義當下的情感,在運行時,會自動計算一組特徵,並使用z分數將說話者標準化。
由德國奧登堡大學開發出來,是一個開源、多用途、高度靈活的程式庫。
提取的特徵由幾個低階描述符(LLD)組成,例如 MFCC、音調、聲音強度、統計函數等等。
最常使用的情境有四大方面--
稍微小節一下--前面這兩種的名字聽起來很像對不對,其實兩個還是有一點差異的:
OpenEAR是一個專門針對情緒分析的資料庫,如果是專注在這一塊的話,使用起來會比較簡單、快速、好上手,但對於其他語音分析領域的靈活性、擴展性就有限。
而openSMILE的整體設計會更加靈活,其中的模型可以提取到數千種不通的特徵,也可以依據自己的要求去擴展相關的功能。除了可以應用在情緒分析之外,甚至可以延伸到健康監測、行為分析等等用途。
LibROSA在情緒分析的應用上也很常見,但其實他最強的地方是「音樂信息檢索(MIR)」,可以用來提取音樂的特徵,對音樂進行分類/檢索/旋律&節拍偵測/相似度分析/頻譜分析/可視化分析等等,把提取特徵的過程反向推導,也能夠透過分析節拍與音調來生成音樂。
除此之外,對音樂的各種處理他也擅長,比如把各種格式的音樂文件(WAV、MP3、FLAC等)轉化成其它格式,或是轉成Numpy的數組來進行後續分析。
而在基礎架構上,因為LibROSA的數值計算核心是使用 NumPy 和 SciPy ,所以在和其他相關的程式庫使用時可以無縫搭配,方便在各領域使用(補如如果要挑到其它機器學習模型的話,資料可以直接拿過去分析沒問題)
COVAREP和最前面介紹的OpenEAR相同,在作用上都是偏向針對情感分析的。
提取的許多特徵也大部分是和情感狀態相關的,比如說話速度、音量、語調等等,並利用共振峰來去進行分析。
今天的資料就到這裡啦~有問題的可以發問哦!!