iT邦幫忙

2024 iThome 鐵人賽

DAY 24
0
AI/ ML & Data

認識AI與NLP的30日旅行團系列 第 24

Day24 聲音類型特徵提取

  • 分享至 

  • xImage
  •  

昨天看完了對於文字類型資料特徵做提取的模型,有沒有對情緒分析更感興趣了呢?

(還是直接放棄了)

今天我們要來看看,在對於「聲音」的特徵提取上,我們可以有哪些方法。


聲音類型的特徵提取

前面我們說到的文字提取,最常用到的基礎是「詞嵌入」、Transfer、注意力機制等等,那聲音的部分呢?是不是也有相關的模型基礎?

答案是有的。

音訊、聲學這方面的模型基礎主要是利用LSTM、雙向LSTM來去做分析,但這部分比較常用在人工提取。

在深度學習發展起來以後,也慢慢有一些相關的方法出現,比如利用CNN去提取數據,然後再傳到分類器中進行分類。

再進一點到程式庫的部分呢,最近比較常見的有 OpenEAR、openSMILE、LibROSA、COVAREP等等開源的程式庫,下面我們來稍微介紹一下:

OpenEAR(Open Emotion and Affect Recognition Toolkit)

主要依賴的基礎是SVM(支持向量機),來將聲音中的信號投射到情感類別上。在這個資料庫中有預定義好的資料集,使用者也可以自行添加資料集來訓練模型。

OpenEAR相較於其他聲音類型的特徵提取程式庫,是比較專注在情緒分析上的,用語音的強度、速度、特徵等等資訊去定義當下的情感,在運行時,會自動計算一組特徵,並使用z分數將說話者標準化。

openSMILE(Open Speech and Music Interpretation by Large-space Extraction

由德國奧登堡大學開發出來,是一個開源、多用途、高度靈活的程式庫。

提取的特徵由幾個低階描述符(LLD)組成,例如 MFCC、音調、聲音強度、統計函數等等。

最常使用的情境有四大方面--

  1. 語音特徵提取:
  2. 音樂特徵提取:可以從音樂中抓出節奏、旋律、音色等等,用來對音樂做分類和分析。
  3. 情感分析:可以抓出聲音中的情感特徵,並對情感進行分析。
  4. 聲音監測:可以去檢測聲音環境中的特定事件,例如監測背景噪音、檢測特定音效等等。

稍微小節一下--前面這兩種的名字聽起來很像對不對,其實兩個還是有一點差異的:

OpenEAR是一個專門針對情緒分析的資料庫,如果是專注在這一塊的話,使用起來會比較簡單、快速、好上手,但對於其他語音分析領域的靈活性、擴展性就有限。

而openSMILE的整體設計會更加靈活,其中的模型可以提取到數千種不通的特徵,也可以依據自己的要求去擴展相關的功能。除了可以應用在情緒分析之外,甚至可以延伸到健康監測、行為分析等等用途。

LibROSA

LibROSA在情緒分析的應用上也很常見,但其實他最強的地方是「音樂信息檢索(MIR)」,可以用來提取音樂的特徵,對音樂進行分類/檢索/旋律&節拍偵測/相似度分析/頻譜分析/可視化分析等等,把提取特徵的過程反向推導,也能夠透過分析節拍與音調來生成音樂。

除此之外,對音樂的各種處理他也擅長,比如把各種格式的音樂文件(WAV、MP3、FLAC等)轉化成其它格式,或是轉成Numpy的數組來進行後續分析。

而在基礎架構上,因為LibROSA的數值計算核心是使用 NumPy 和 SciPy ,所以在和其他相關的程式庫使用時可以無縫搭配,方便在各領域使用(補如如果要挑到其它機器學習模型的話,資料可以直接拿過去分析沒問題)

COVAREP(Collaborative Voice Analysis Repository

COVAREP和最前面介紹的OpenEAR相同,在作用上都是偏向針對情感分析的。

提取的許多特徵也大部分是和情感狀態相關的,比如說話速度、音量、語調等等,並利用共振峰來去進行分析。


今天的資料就到這裡啦~有問題的可以發問哦!!


上一篇
Day23 文字類型特徵提取
下一篇
Day25 視覺類型特徵提取
系列文
認識AI與NLP的30日旅行團30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言