今天終於要進入到主題,ai語音訓練啦!
雖然前面學習了很多AI人工智慧的基本知識,也簡單實作了一個cnn網路,不過要在剩下這短短幾天自己刻出一個語音訓練的網路小弟還是做不到的QQ,不過我在網路上有找到一個VITS語音訓練的github專案,所以決定介紹並用這個專案做出自己的語音模型。
這邊先介紹一下VITS
一種先進的語音合成方法。
VITS 的目標是將文字轉換為高品質、自然流暢的語音。這是一種 Text-to-Speech(TTS)技術,可以應用於語音助手、語音書籍、無障礙應用等。
工作流程:
用戶輸入一段文字,這段文字首先被轉換為對應的發音規則。這可能牽涉到將文本中的單詞或音素與其對應的發音進行映射。
轉換後的發音規則被送入預先訓練好的語音編碼器(Vocoder)。這個編碼器的工作是生成語音訊號的特徵表示。這個表示應該捕捉到語音的各種音頻和時序特性,例如聲音的音高和持續時間。
語音編碼器生成的特徵表示被輸入到預先訓練好的語音合成模型中。這個模型的任務是生成最終的合成語音。在這個過程中,VITS 可能使用變分自編碼器(VAE)和對抗性學習等技術,這有助於提高模型對語音特徵的抽象能力,使其更好地捕捉潛在的語音變化。
優點:
VITS 優點在於其能夠生成高品質且流暢的語音。其在訓練過程中使用了先進的變分推斷和對抗性學習技術,使模型更靈活地學習和生成多樣性的語音。
挑戰:
然而,使用 VITS 也有一些挑戰。首先,他需要大量的訓練數據,這對於深度學習模型是一個普遍的需求。其次,VITS 的訓練流程可能比較複雜,需要精心調整和設置。
總而言之,VITS 代表了語音合成領域的一項先進技術,有望提高語音合成系統的性能和自然度,使其更適用於實際應用。
明天就會開始帶到專案了!