目前正在做的事情是嘗試把一個人的聲音轉換成另一個人的聲音,現在做到使用 AUTO-VC 轉換,未來正在實驗自己的 Model ( 目前用的是 Tramsformer ) 這個過程遇到了不少問題,因此想要紀錄一下,也跟大家分享。
前言與動機 在提到聲音轉換的時候,我們第一個會想到的可能就像是柯南那樣 (他會把他叔叔麻醉然後用變聲器偽裝成他的聲音),而事實上我們想做的就是同樣的事情 (沒有...
聲音這東西實在是太自然了,所以我們很少去思考這東西的本質到底是什麼 簡單的來複習一下聲音是什麼,你可以到維基百科上面看看,寫的是相當清楚 ; 而我是這樣子理...
梅爾倒頻譜 昨天我們介紹了頻譜跟梅爾頻率,那有沒有機會我可以把這兩個結合在一起,獲得更有用的資訊呢? 沒有錯拉 我們只要把頻譜轉換到梅爾刻度上就可以得到很...
資料集 在這個實驗裡我們用的原始資料集在這裡下載 或是直接從這裡下載 csv 跟 notebook 就好 這個資料集名稱叫做 GTZAN ,裏頭一共有 10 種...
在頻域裡面遭遇虛數 經過前面 4 篇的介紹我們已經知道如何萃取出聲音的特徵了,我們用來訓練的資料,都是在頻域裡面的資料,所以之後的模型勢必然預測出來的會是個頻譜...
回填之前的坑 在往 Vocoder 邁進之前,我們先回顧一下之前我們在做 melspectrogram 的時候,其實是有一些參數可以設定的. spec = li...
聲碼器 (Vocoder) 合成語音的概念最早是由貝爾實驗室的工程師 - 荷馬·達德利在 1928 年所提出,並在 1939 年 (二戰開打那年) 的紐約世界...
MelGan 誠如昨天所說的,使用 Wavenet_Vocoder 生成聲音的速度實在是太慢了,所以我們改用 MelGan 你可以從他的名字中看出一些端倪...
舊時代的 Speaker Identification 同一人講不同話,再轉成 Mel 之後還是不同的東西,那我們又該如何判斷出一句話是哪個人講的呢 ?...
前言 在經過前面 9 天的準備之後,我們終於有些本錢可以涉足這個領域了,整理一下我們現在所掌握的 知道聲音的特徵資訊藏在 Mel 裡,也知道怎麼算 知道怎...