MetaAI推出功能強大的SeamlessM4T統整型轉譯系統,包含ASR、T2TT、S2TT、T2ST及S2ST五種模型,幾乎包含了所有語音辨識模型於其中,適合作為語音辨識學習的範例,故研究其架構及應用。本參賽內容預計涵蓋簡介,ASR、T2TT、S2TT、T2ST及S2ST五種模型程式碼架構及其應用面使用。
ASR(Automatic Speech Recognition)為語音辨識模型,語言可以選擇,不管是輸入及輸出都可以選擇語言,所涵蓋的語言代號請參考連結:Se...
SeamlessM4T在轉譯過程中最重要的是Translator以及predict這兩個函式,故在本篇研究這兩個函式的架構。 Translator程式碼結構 在...
上一篇討論到SeamlessM4T在轉譯過程中最重要的是Translator以及predict這兩個函式,發現這兩支主程式又分別引用了兩個函式,UnitYMod...
UnitY模型由四個模組組成:語音編碼器、第一階段文本解碼器、文字轉語音單元 (T2U) 編碼器和第二階段單元解碼器。UnityY 不只承襲Translatot...
Conformer(Convolution-augmented Transformer)增強卷積Transformer,Transformer的自注意力層可以針...
MetaAI使用基於文字的 mBART (t-mBART) 預訓練模型作為UnitY模型的第一階段解碼器,且充分利用未標記的文字數據。 什麼是mBART? 過去...
SeamlessM4T在Text decoder產生文本後已達成三種任務的功能,包含S2TT、T2TT、ASR。若需要轉成語音輸出就再送進後級的T2U(Text...
MetaAI在使用Unit decoder得到轉譯後的語音單元(Unit)後,送入HiFi-GAN Vocoder單元轉換為語音聲波訊號。MetaAI使用兩種H...
本篇回顧一下Transformer架構。Transformer模型包含了注意力(attention)及自注意力(self-attention)且不斷發展技術,可...
在前幾篇的文章中我們了解SeamlessM4T的轉譯流程,基本上是將語音或文本先轉成目標語言文本後,再送入T2U(Text-to-Unit)模型,最後將語音單元...