iT邦幫忙

鐵人檔案

2021 iThome 鐵人賽
回列表
AI & Data

AI Voice Conversion 系列

目前正在做的事情是嘗試把一個人的聲音轉換成另一個人的聲音,現在做到使用 AUTO-VC 轉換,未來正在實驗自己的 Model ( 目前用的是 Tramsformer ) 這個過程遇到了不少問題,因此想要紀錄一下,也跟大家分享。

鐵人鍊成 | 共 30 篇文章 | 13 人訂閱 訂閱系列文 RSS系列文
DAY 1

【Day1】準備出發

前言與動機 在提到聲音轉換的時候,我們第一個會想到的可能就像是柯南那樣 (他會把他叔叔麻醉然後用變聲器偽裝成他的聲音),而事實上我們想做的就是同樣的事情 (沒有...

2021-09-01 ‧ 由 Rorschach 分享
DAY 2

【Day2】聲音的一些基本介紹

聲音這東西實在是太自然了,所以我們很少去思考這東西的本質到底是什麼 簡單的來複習一下聲音是什麼,你可以到維基百科上面看看,寫的是相當清楚 ; 而我是這樣子理...

2021-09-02 ‧ 由 Rorschach 分享
DAY 3

【Day3】聲音的特徵提取

梅爾倒頻譜 昨天我們介紹了頻譜跟梅爾頻率,那有沒有機會我可以把這兩個結合在一起,獲得更有用的資訊呢? 沒有錯拉 我們只要把頻譜轉換到梅爾刻度上就可以得到很...

2021-09-03 ‧ 由 Rorschach 分享
DAY 4

【Day4】音樂分類小實驗

資料集 在這個實驗裡我們用的原始資料集在這裡下載 或是直接從這裡下載 csv 跟 notebook 就好 這個資料集名稱叫做 GTZAN ,裏頭一共有 10 種...

2021-09-04 ‧ 由 Rorschach 分享
DAY 5

【Day5】從頻域到 wave 的轉換,淺談虛數可以拿來 Train Model 嗎?

在頻域裡面遭遇虛數 經過前面 4 篇的介紹我們已經知道如何萃取出聲音的特徵了,我們用來訓練的資料,都是在頻域裡面的資料,所以之後的模型勢必然預測出來的會是個頻譜...

2021-09-05 ‧ 由 Rorschach 分享
DAY 6

【Day6】窗涵式,n_fft ,hop_length 到底什麼意思啊?

回填之前的坑 在往 Vocoder 邁進之前,我們先回顧一下之前我們在做 melspectrogram 的時候,其實是有一些參數可以設定的. spec = li...

2021-09-06 ‧ 由 Rorschach 分享
DAY 7

【Day7】Vocoder Model 以及 WaveNet 介紹

聲碼器 (Vocoder) 合成語音的概念最早是由貝爾實驗室的工程師 - 荷馬·達德利在 1928 年所提出,並在 1939 年 (二戰開打那年) 的紐約世界...

2021-09-07 ‧ 由 Rorschach 分享
DAY 8

【Day8】 用 MelGan 把 Mel 轉成 Waveform

MelGan 誠如昨天所說的,使用 Wavenet_Vocoder 生成聲音的速度實在是太慢了,所以我們改用 MelGan 你可以從他的名字中看出一些端倪...

2021-09-08 ‧ 由 Rorschach 分享
DAY 9

【Day9】 Speaker Identification 介紹與 D_VECTOR 實做

舊時代的 Speaker Identification 同一人講不同話,再轉成 Mel 之後還是不同的東西,那我們又該如何判斷出一句話是哪個人講的呢 ?...

2021-09-09 ‧ 由 Rorschach 分享
DAY 10

【Day10】 聲音轉換概述 - 再次出發!

前言 在經過前面 9 天的準備之後,我們終於有些本錢可以涉足這個領域了,整理一下我們現在所掌握的 知道聲音的特徵資訊藏在 Mel 裡,也知道怎麼算 知道怎...

2021-09-10 ‧ 由 Rorschach 分享