【Day3】聲音的特徵提取 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2021 iThome 鐵人賽

DAY 3

4

AI & Data

AI Voice Conversion系列第 3 篇

【Day3】聲音的特徵提取

13th鐵人賽

2021-09-03 21:51:49

5066 瀏覽

分享至

梅爾倒頻譜

昨天我們介紹了頻譜跟梅爾頻率，那有沒有機會我可以把這兩個結合在一起，獲得更有用的資訊呢？

沒有錯拉

我們只要把頻譜轉換到梅爾刻度上就可以得到很基礎的梅爾倒頻譜，

幸運的是我們可以不用那麼麻煩，因為 librosa 都幫你做好了。

梅爾倒頻譜係數

有了梅爾倒頻譜之後，我們還是能夠繼續簡化它，梅爾倒頻譜係數就是一組用來建立梅爾倒頻譜的關鍵係數，它通常是 13 維的資料

這是因為丟棄高維的係數，就像是一個低通濾波器，可以使訊號平滑化，增進語音處理的性能

取得係數的方法，如果你想要自己算的話，就是把梅爾倒頻譜再做一次倒頻譜，但 librosa 已經幫你做好了

(更詳細的作法，你可以參考這篇)

mfcc = librosa.feature.mfcc(wave,sr=sr, n_mfcc=13)

你也可以隨時把它轉回來

 librosa.feature.inverse.mfcc_to_mel(mfcc)

過零率

過零率是指一個信號的正負號變化的比率，這個特徵在音樂分類的任務上是敲擊聲的關鍵特徵

實際看一下資料就可以感受到了

頻譜質心

它可以用來表達每個音框的頻率分布以及趨勢，每個音框都會計算出一個特徵值，

在分析一段聲音時，我們通常將音訊切成比較短的單位，就叫音框

如果這個值越低就說明越多的能量在低頻，反之亦然。

實際看一下資料就可以感受到了

librosa.feature 裏頭還有一些其他 feature，但比較難去找實際的資料來說明，像是 Tonnetz 這個可能跟樂理以及音調有關係。

小結

今天我們學到了一些聲音的特徵，還有提取的方法，那明天就來實作一個簡單的音樂分類器吧!

【Day2】聲音的一些基本介紹

【Day4】音樂分類小實驗

系列文

AI Voice Conversion 共 30 篇

目錄

RSS系列文訂閱系列文

13 人訂閱

完整目錄

直播研討會

尚未有邦友留言

立即登入留言

參賽組數

1064 組

團體組數

40 組

累計文章數

22200 篇

完賽人數

600 人

完善資安防護的最後一道防線

CYBERSEC NOW |

29 分

利用語言模型強化威脅情資

奧義智慧科技 |

36 分

從 VSM 到 DevOps 指標了解交付能力

DevOpsDays |

46 分

Citrix 多工虛擬化解決方案協助企業增進生產力

Cloud Summit 臺灣雲端大會 |

24 分

HPE Zerto 勒索軟體和災難復原 - 虛擬資料保護革命新體驗

IT EXPLAINED |

35 分

Deepfake 技術發展與疑慮

臺灣資安大會 |

23 分

從數據了解全球使用者體驗，展望未來雲趨勢

Cloud Summit 臺灣雲端大會 |

29 分

利用雲掌握企業安全的最後防線

Cloud Summit 臺灣雲端大會 |

31 分

使用 Kong Gateway 與 GitOps 來管理您企業的 API 呼叫

Cloud Summit 臺灣雲端大會 |

30 分

兼顧邊緣安全與動靜態內容加速方案

IT EXPLAINED |

27 分

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# windows server linux css react vue.js

IT邦幫忙