iT邦幫忙

2023 iThome 鐵人賽

DAY 27
0

今天終於要進入到主題,ai語音訓練啦!
雖然前面學習了很多AI人工智慧的基本知識,也簡單實作了一個cnn網路,不過要在剩下這短短幾天自己刻出一個語音訓練的網路小弟還是做不到的QQ,不過我在網路上有找到一個VITS語音訓練的github專案,所以決定介紹並用這個專案做出自己的語音模型。


這邊先介紹一下VITS

VITS(Variational Inference with Adversarial Learning for End-to-End Text-to-Speech)

一種先進的語音合成方法。

目標:

VITS 的目標是將文字轉換為高品質、自然流暢的語音。這是一種 Text-to-Speech(TTS)技術,可以應用於語音助手、語音書籍、無障礙應用等。
工作流程:

文本轉發音規則(Text-To-Speech):

用戶輸入一段文字,這段文字首先被轉換為對應的發音規則。這可能牽涉到將文本中的單詞或音素與其對應的發音進行映射。

語音編碼器(Vocoder)的使用:

轉換後的發音規則被送入預先訓練好的語音編碼器(Vocoder)。這個編碼器的工作是生成語音訊號的特徵表示。這個表示應該捕捉到語音的各種音頻和時序特性,例如聲音的音高和持續時間。

語音合成模型的使用:

語音編碼器生成的特徵表示被輸入到預先訓練好的語音合成模型中。這個模型的任務是生成最終的合成語音。在這個過程中,VITS 可能使用變分自編碼器(VAE)和對抗性學習等技術,這有助於提高模型對語音特徵的抽象能力,使其更好地捕捉潛在的語音變化。
優點:

VITS 優點在於其能夠生成高品質且流暢的語音。其在訓練過程中使用了先進的變分推斷和對抗性學習技術,使模型更靈活地學習和生成多樣性的語音。
挑戰:

然而,使用 VITS 也有一些挑戰。首先,他需要大量的訓練數據,這對於深度學習模型是一個普遍的需求。其次,VITS 的訓練流程可能比較複雜,需要精心調整和設置。
總而言之,VITS 代表了語音合成領域的一項先進技術,有望提高語音合成系統的性能和自然度,使其更適用於實際應用。


明天就會開始帶到專案了!


上一篇
Day26 在python環境實作 CNN捲積神經網路(完!)
下一篇
Day28 VITS語音訓練(中)
系列文
AI語音模型訓練: machine learning 和 deep learning 的學習與應用30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言