iT邦幫忙

2023 iThome 鐵人賽

DAY 30
0
AI & Data

AI語音模型訓練: machine learning 和 deep learning 的學習與應用系列 第 30

Day30 VITS語音模型訓練(完): 成功生成模型與完賽心得!

  • 分享至 

  • xImage
  •  

今天最後一天就要來實做這個語音訓練的模型啦!
一樣先放上專案連結:https://github.com/Plachtaa/VITS-fast-fine-tuning
以及作者連結:https://github.com/Plachtaa


在開始訓練之前,我們要先準備訓練用的資料集,也就是一些訓練用的音檔,這邊就要回去看一下專案裡寫的檔案格式的規範
若是短音訊的話長度要在2-10秒,且一個模型(角色)至少要十個檔案,效果要比較好要二十個以上。且要裝在以角色名稱為名的資料夾裡壓縮成ZIP檔。
長音訊的話長度要在20分鐘內,不然可能會爆內存,命名格式須為{CharacterName}_{random_number}.wav, 且檔案格式要式WAV檔。
我這邊打算用短音訊來做資料集,短音訊的格式是不限制的,我的資料夾大概是長這樣!
https://ithelp.ithome.com.tw/upload/images/20231015/20160630s2FVo3yRLC.png
之後再把他壓成zip就好

接下來就進入Colab

首先直接執行Step1,等它複製專案及安裝下載一下環境套件等等。可能需要一小段時間。
https://ithelp.ithome.com.tw/upload/images/20231015/20160630Sk35n4WkCv.png

然後繼續到Step1.5 選擇語言模型,也就是前面講過的三種語言,我是只有用到中文,所以就直接用預設的CJ,不動她。
https://ithelp.ithome.com.tw/upload/images/20231015/20160630BPAWEpZjuA.png

接著step2到了上傳你的訓練資料集的時候了,這邊可以根據你準備的資料集形式選擇執行列,像我的就是短音訊,而且我直接用google drive連接上傳,所以選擇2.1的第二個執行列
https://ithelp.ithome.com.tw/upload/images/20231015/20160630NQfnw57FZq.png

接著step3會將上傳的檔案進行預處理,像是去躁、採樣率等等。這邊也會把你的音檔轉成文本喔,假如你認為文本有錯在這邊要進行修改。我自己是覺得很準啦。
https://ithelp.ithome.com.tw/upload/images/20231015/20160630qKbJz43UWI.png

繼續執行Step3.5這邊就是訓練前的一些調整,這邊可以勾選作者推薦的一個輔助訓練的數據,就依條件看你認為要不要勾。
https://ithelp.ithome.com.tw/upload/images/20231015/201606301XBJxPVh4X.png

Step4就是訓練模型啦,這邊可以調整訓練的epoch,我自己是寫100,但其實不用到100效果就很不錯了,在訓練時,底下還會生成一個tensorboard讓你可以試聽效果怎麼樣,你認為可以的話其實就可以停了。
https://ithelp.ithome.com.tw/upload/images/20231015/20160630eEx0fvUVV0.png

最後step5就是下載模型啦,下載完後找到G_latest.pth和finetune_speaker.json兩個檔案就是你的模型了!
https://ithelp.ithome.com.tw/upload/images/20231015/20160630YXtP3qDWae.png
https://ithelp.ithome.com.tw/upload/images/20231015/20160630u6QIRanAKN.png

想要直接在本地執行這個模型的話,就去這個專題的release那邊下載inference,
https://ithelp.ithome.com.tw/upload/images/20231015/20160630BcLQz4RATs.png
https://ithelp.ithome.com.tw/upload/images/20231015/201606303coOAQxRDl.png

之後將這包解壓縮,在將G_latest.pth和finetune_speaker.json丟進去資料夾裡,然後執行資料夾裡的inference,等他跑出一個網頁,就可以玩你的模型了!
https://ithelp.ithome.com.tw/upload/images/20231015/20160630f9eekumt5k.png

這樣就可以玩啦
https://ithelp.ithome.com.tw/upload/images/20231015/20160630RsHe7bPrlx.png

VITS語音模型專題實作就到這邊結束~


最後這邊想講一下這三十天鐵人一路寫過來的心得,講實話三十天不短,也沒長到哪裡去,但這一個月若是有好好的學習,不僅能夠學到豐富的東西,更是養成了自主學習的習慣,讓大腦習慣每天的去接收新知識,我認為這是無比珍貴的。
總之,這個鐵人賽的經驗確實很特別,在這次完賽後,我也會盡量保持每天的自主學習,去嘗試新東西。並在明年再次參加這個鐵人賽!


上一篇
Day29 VITS語音模型訓練(中):專案程式碼理解
系列文
AI語音模型訓練: machine learning 和 deep learning 的學習與應用30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言