Day30 VITS語音模型訓練(完): 成功生成模型與完賽心得!

2023 iThome 鐵人賽

DAY 30

AI & Data

AI語音模型訓練: machine learning 和 deep learning 的學習與應用系列第 30 篇

15th鐵人賽

nighting

團隊原神啟動！

2023-10-15 03:23:13

1470 瀏覽

分享至

今天最後一天就要來實做這個語音訓練的模型啦!
一樣先放上專案連結:https://github.com/Plachtaa/VITS-fast-fine-tuning
以及作者連結:https://github.com/Plachtaa

在開始訓練之前，我們要先準備訓練用的資料集，也就是一些訓練用的音檔，這邊就要回去看一下專案裡寫的檔案格式的規範
若是短音訊的話長度要在2-10秒，且一個模型(角色)至少要十個檔案，效果要比較好要二十個以上。且要裝在以角色名稱為名的資料夾裡壓縮成ZIP檔。
長音訊的話長度要在20分鐘內，不然可能會爆內存，命名格式須為{CharacterName}_{random_number}.wav，且檔案格式要式WAV檔。
我這邊打算用短音訊來做資料集，短音訊的格式是不限制的，我的資料夾大概是長這樣!

之後再把他壓成zip就好

接下來就進入Colab

首先直接執行Step1，等它複製專案及安裝下載一下環境套件等等。可能需要一小段時間。

然後繼續到Step1.5 選擇語言模型，也就是前面講過的三種語言，我是只有用到中文，所以就直接用預設的CJ，不動她。

接著step2到了上傳你的訓練資料集的時候了，這邊可以根據你準備的資料集形式選擇執行列，像我的就是短音訊，而且我直接用google drive連接上傳，所以選擇2.1的第二個執行列

接著step3會將上傳的檔案進行預處理，像是去躁、採樣率等等。這邊也會把你的音檔轉成文本喔，假如你認為文本有錯在這邊要進行修改。我自己是覺得很準啦。

繼續執行Step3.5這邊就是訓練前的一些調整，這邊可以勾選作者推薦的一個輔助訓練的數據，就依條件看你認為要不要勾。

Step4就是訓練模型啦，這邊可以調整訓練的epoch，我自己是寫100，但其實不用到100效果就很不錯了，在訓練時，底下還會生成一個tensorboard讓你可以試聽效果怎麼樣，你認為可以的話其實就可以停了。

最後step5就是下載模型啦，下載完後找到G_latest.pth和finetune_speaker.json兩個檔案就是你的模型了!

想要直接在本地執行這個模型的話，就去這個專題的release那邊下載inference，

之後將這包解壓縮，在將G_latest.pth和finetune_speaker.json丟進去資料夾裡，然後執行資料夾裡的inference，等他跑出一個網頁，就可以玩你的模型了!

這樣就可以玩啦

VITS語音模型專題實作就到這邊結束~

最後這邊想講一下這三十天鐵人一路寫過來的心得，講實話三十天不短，也沒長到哪裡去，但這一個月若是有好好的學習，不僅能夠學到豐富的東西，更是養成了自主學習的習慣，讓大腦習慣每天的去接收新知識，我認為這是無比珍貴的。
總之，這個鐵人賽的經驗確實很特別，在這次完賽後，我也會盡量保持每天的自主學習，去嘗試新東西。並在明年再次參加這個鐵人賽!