iT邦幫忙

2023 iThome 鐵人賽

DAY 18
0
AI & Data

利用SeamlessM4T學習語音辨識架構及應用系列 第 18

DAY18 - SeamlessM4T程式碼中的Vocoder

  • 分享至 

  • xImage
  •  

MetaAI在使用Unit decoder得到轉譯後的語音單元(Unit)後,送入HiFi-GAN Vocoder單元轉換為語音聲波訊號。MetaAI使用兩種HiFi-GAN聲碼器,其中一種HiFi-GAN聲碼器(Kong et al., 2020)將頻譜圖轉換為 TTS 波形以及直接將語音到頻譜圖。另一種是基於單元的HiFi-GAN聲碼器(Polyak 等人,2021),將離散語音單位轉換為聲波波形。而兩個聲碼器是分開訓練的。

HiFi-GAN

HiFi-GAN 由一個生成器和兩個判別器組成:多尺度和多周期判別器(Multi-Scale Discriminator and Multi-Period Discriminator)。生成器和判別器進行對抗性訓練,並附加兩個額外損失(Loss)來提高訓練穩定性和模型性能。

生成器Generator

生成器是一個完全的卷積神經網路,使用頻譜圖作為輸入,並透過轉置卷積對其進行上採樣(Upsampling),直到輸出序列的長度與原始波形的時間相匹配。每個轉置卷積後面都接著一個多受域融合(multi-receptive field fusion, MRF, 文獻)模組。

Multi-Period Discriminator

MPD 是子判別器的混合體,每個子判別器僅接受輸入音訊的相同間隔樣本,旨在透過查看輸入音訊的不同部分,來捕捉其中的隱式結構。每個子判別器都具有ReLU啟動函數的卷積層堆疊。隨後將權重歸一化(Salimansand Kingma,2016)應用於MPD。透過將輸入音訊重塑為2D 資料而不是對音訊進行週期性訊號取樣,可以將MPD 的梯度傳遞到輸入音訊的所有時間步長。

Multi-Scale Discriminator

由於MP 中的每個子判別器不接受不相交的樣本,因此我們添加MSD 來連續評估音頻序列。MS 的架構與Mel-GAN (Kumaretal.,2019) 的架構不同。透過減少步長和添加更多層來增加判別器大小。其中MPD 對原始波形的不相交樣本進行操作,而 MSD 對平滑波形進行操作。

總結

MetaAI引用HiFi-GAN可以有效地合成高品質的語音音訊,提高合成音訊的品質及合成速度。根據目標規格靈活選擇生成器配置,而無需對判別器進行耗時的超參數訓練。而HiFi-GAN也是開源的可以自行使用。


上一篇
DAY17 - SeamlessM4T中的T2U Encoder 及 Unit Decoder
下一篇
DAY19 - 回顧Transformer架構
系列文
利用SeamlessM4T學習語音辨識架構及應用30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言