iT邦幫忙

鐵人檔案

2023 iThome 鐵人賽
回列表
AI & Data

利用SeamlessM4T學習語音辨識架構及應用 系列

MetaAI推出功能強大的SeamlessM4T統整型轉譯系統,包含ASR、T2TT、S2TT、T2ST及S2ST五種模型,幾乎包含了所有語音辨識模型於其中,適合作為語音辨識學習的範例,故研究其架構及應用。本參賽內容預計涵蓋簡介,ASR、T2TT、S2TT、T2ST及S2ST五種模型程式碼架構及其應用面使用。

鐵人鍊成 | 共 30 篇文章 | 3 人訂閱 訂閱系列文 RSS系列文
DAY 11

DAY11 - SeamlessM4T的ASR功能使用測試

ASR(Automatic Speech Recognition)為語音辨識模型,語言可以選擇,不管是輸入及輸出都可以選擇語言,所涵蓋的語言代號請參考連結:Se...

2023-09-26 ‧ 由 AlbertShiu 分享
DAY 12

DAY12 - SeamlessM4T的Translator及predict程式碼架構

SeamlessM4T在轉譯過程中最重要的是Translator以及predict這兩個函式,故在本篇研究這兩個函式的架構。 Translator程式碼結構 在...

2023-09-27 ‧ 由 AlbertShiu 分享
DAY 13

DAY13 - SeamlessM4T的UnitYModel及get_prediction函式程式碼結構

上一篇討論到SeamlessM4T在轉譯過程中最重要的是Translator以及predict這兩個函式,發現這兩支主程式又分別引用了兩個函式,UnitYMod...

2023-09-28 ‧ 由 AlbertShiu 分享
DAY 14

DAY14 - SeamlessM4T的UnitY Model架構

UnitY模型由四個模組組成:語音編碼器、第一階段文本解碼器、文字轉語音單元 (T2U) 編碼器和第二階段單元解碼器。UnityY 不只承襲Translatot...

2023-09-29 ‧ 由 AlbertShiu 分享
DAY 15

DAY15 - SeamlessM4T中的Conformer

Conformer(Convolution-augmented Transformer)增強卷積Transformer,Transformer的自注意力層可以針...

2023-09-30 ‧ 由 AlbertShiu 分享
DAY 16

DAY16 - SeamlessM4T中的Text Decoder

MetaAI使用基於文字的 mBART (t-mBART) 預訓練模型作為UnitY模型的第一階段解碼器,且充分利用未標記的文字數據。 什麼是mBART? 過去...

2023-10-01 ‧ 由 AlbertShiu 分享
DAY 17

DAY17 - SeamlessM4T中的T2U Encoder 及 Unit Decoder

SeamlessM4T在Text decoder產生文本後已達成三種任務的功能,包含S2TT、T2TT、ASR。若需要轉成語音輸出就再送進後級的T2U(Text...

2023-10-02 ‧ 由 AlbertShiu 分享
DAY 18

DAY18 - SeamlessM4T程式碼中的Vocoder

MetaAI在使用Unit decoder得到轉譯後的語音單元(Unit)後,送入HiFi-GAN Vocoder單元轉換為語音聲波訊號。MetaAI使用兩種H...

2023-10-03 ‧ 由 AlbertShiu 分享
DAY 19

DAY19 - 回顧Transformer架構

本篇回顧一下Transformer架構。Transformer模型包含了注意力(attention)及自注意力(self-attention)且不斷發展技術,可...

2023-10-04 ‧ 由 AlbertShiu 分享
DAY 20

DAY20 - SeamlessM4T中的特徵提取(Unit Extraction)

在前幾篇的文章中我們了解SeamlessM4T的轉譯流程,基本上是將語音或文本先轉成目標語言文本後,再送入T2U(Text-to-Unit)模型,最後將語音單元...

2023-10-05 ‧ 由 AlbertShiu 分享