2024 iThome 鐵人賽

DAY 24

AI/ ML & Data

認識AI與NLP的30日旅行團系列第 24 篇

Day24 聲音類型特徵提取

16th鐵人賽

初墨 Roy

2024-10-08 18:27:04

192 瀏覽

分享至

昨天看完了對於文字類型資料特徵做提取的模型，有沒有對情緒分析更感興趣了呢？

（還是直接放棄了）

今天我們要來看看，在對於「聲音」的特徵提取上，我們可以有哪些方法。

聲音類型的特徵提取

前面我們說到的文字提取，最常用到的基礎是「詞嵌入」、Transfer、注意力機制等等，那聲音的部分呢？是不是也有相關的模型基礎？

答案是有的。

音訊、聲學這方面的模型基礎主要是利用LSTM、雙向LSTM來去做分析，但這部分比較常用在人工提取。

在深度學習發展起來以後，也慢慢有一些相關的方法出現，比如利用CNN去提取數據，然後再傳到分類器中進行分類。

再進一點到程式庫的部分呢，最近比較常見的有 OpenEAR、openSMILE、LibROSA、COVAREP等等開源的程式庫，下面我們來稍微介紹一下：

OpenEAR（Open Emotion and Affect Recognition Toolkit）

主要依賴的基礎是SVM（支持向量機），來將聲音中的信號投射到情感類別上。在這個資料庫中有預定義好的資料集，使用者也可以自行添加資料集來訓練模型。

OpenEAR相較於其他聲音類型的特徵提取程式庫，是比較專注在情緒分析上的，用語音的強度、速度、特徵等等資訊去定義當下的情感，在運行時，會自動計算一組特徵，並使用z分數將說話者標準化。

openSMILE（Open Speech and Music Interpretation by Large-space Extraction）

由德國奧登堡大學開發出來，是一個開源、多用途、高度靈活的程式庫。

提取的特徵由幾個低階描述符（LLD）組成，例如 MFCC、音調、聲音強度、統計函數等等。

最常使用的情境有四大方面－－

語音特徵提取：
音樂特徵提取：可以從音樂中抓出節奏、旋律、音色等等，用來對音樂做分類和分析。
情感分析：可以抓出聲音中的情感特徵，並對情感進行分析。
聲音監測：可以去檢測聲音環境中的特定事件，例如監測背景噪音、檢測特定音效等等。

稍微小節一下－－前面這兩種的名字聽起來很像對不對，其實兩個還是有一點差異的：

OpenEAR是一個專門針對情緒分析的資料庫，如果是專注在這一塊的話，使用起來會比較簡單、快速、好上手，但對於其他語音分析領域的靈活性、擴展性就有限。

而openSMILE的整體設計會更加靈活，其中的模型可以提取到數千種不通的特徵，也可以依據自己的要求去擴展相關的功能。除了可以應用在情緒分析之外，甚至可以延伸到健康監測、行為分析等等用途。

LibROSA

LibROSA在情緒分析的應用上也很常見，但其實他最強的地方是「音樂信息檢索（MIR）」，可以用來提取音樂的特徵，對音樂進行分類／檢索／旋律&節拍偵測／相似度分析／頻譜分析／可視化分析等等，把提取特徵的過程反向推導，也能夠透過分析節拍與音調來生成音樂。

除此之外，對音樂的各種處理他也擅長，比如把各種格式的音樂文件（WAV、MP3、FLAC等）轉化成其它格式，或是轉成Numpy的數組來進行後續分析。

而在基礎架構上，因為LibROSA的數值計算核心是使用 NumPy 和 SciPy ，所以在和其他相關的程式庫使用時可以無縫搭配，方便在各領域使用（補如如果要挑到其它機器學習模型的話，資料可以直接拿過去分析沒問題）

COVAREP（Collaborative Voice Analysis Repository）

COVAREP和最前面介紹的OpenEAR相同，在作用上都是偏向針對情感分析的。

提取的許多特徵也大部分是和情感狀態相關的，比如說話速度、音量、語調等等，並利用共振峰來去進行分析。

今天的資料就到這裡啦～有問題的可以發問哦！！

Day23 文字類型特徵提取

Day25 視覺類型特徵提取

系列文

認識AI與NLP的30日旅行團共 30 篇

RSS系列文訂閱系列文

0 人訂閱

完整目錄

直播研討會

{{ item.channelVendor }} {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

1064 組

團體組數

40 組

累計文章數

22195 篇

完賽人數

600 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# windows server linux css react vue.js

IT邦幫忙

認識AI與NLP的30日旅行團系列 第 24 篇