利用SeamlessM4T學習語音辨識架構及應用

AlbertShiu (albertxu59)

iT邦新手 5 級 ‧ 點數 174

3628

累計瀏覽數

1人

在追蹤

站內簡訊追蹤

鐵人檔案

2023 iThome 鐵人賽

回列表

AI & Data

利用SeamlessM4T學習語音辨識架構及應用系列

MetaAI推出功能強大的SeamlessM4T統整型轉譯系統，包含ASR、T2TT、S2TT、T2ST及S2ST五種模型，幾乎包含了所有語音辨識模型於其中，適合作為語音辨識學習的範例，故研究其架構及應用。本參賽內容預計涵蓋簡介，ASR、T2TT、S2TT、T2ST及S2ST五種模型程式碼架構及其應用面使用。

鐵人鍊成｜共 30 篇文章｜ 3 人訂閱訂閱系列文 RSS系列文

0 Like 0 留言 591 瀏覽

DAY 11

DAY11 - SeamlessM4T的ASR功能使用測試

ASR(Automatic Speech Recognition)為語音辨識模型，語言可以選擇，不管是輸入及輸出都可以選擇語言，所涵蓋的語言代號請參考連結：Se...

2023-09-26 ‧ 由 AlbertShiu 分享

0 Like 0 留言 504 瀏覽

DAY 12

DAY12 - SeamlessM4T的Translator及predict程式碼架構

SeamlessM4T在轉譯過程中最重要的是Translator以及predict這兩個函式，故在本篇研究這兩個函式的架構。 Translator程式碼結構在...

2023-09-27 ‧ 由 AlbertShiu 分享

0 Like 0 留言 325 瀏覽

DAY 13

DAY13 - SeamlessM4T的UnitYModel及get_prediction函式程式碼結構

上一篇討論到SeamlessM4T在轉譯過程中最重要的是Translator以及predict這兩個函式，發現這兩支主程式又分別引用了兩個函式，UnitYMod...

2023-09-28 ‧ 由 AlbertShiu 分享

0 Like 0 留言 402 瀏覽

DAY 14

DAY14 - SeamlessM4T的UnitY Model架構

UnitY模型由四個模組組成：語音編碼器、第一階段文本解碼器、文字轉語音單元 (T2U) 編碼器和第二階段單元解碼器。UnityY 不只承襲Translatot...

2023-09-29 ‧ 由 AlbertShiu 分享

0 Like 0 留言 879 瀏覽

DAY 15

DAY15 - SeamlessM4T中的Conformer

Conformer(Convolution-augmented Transformer)增強卷積Transformer，Transformer的自注意力層可以針...

2023-09-30 ‧ 由 AlbertShiu 分享

0 Like 0 留言 999 瀏覽

DAY 16

DAY16 - SeamlessM4T中的Text Decoder

MetaAI使用基於文字的 mBART (t-mBART) 預訓練模型作為UnitY模型的第一階段解碼器，且充分利用未標記的文字數據。什麼是mBART? 過去...

2023-10-01 ‧ 由 AlbertShiu 分享

0 Like 0 留言 294 瀏覽

DAY 17

DAY17 - SeamlessM4T中的T2U Encoder 及 Unit Decoder

SeamlessM4T在Text decoder產生文本後已達成三種任務的功能，包含S2TT、T2TT、ASR。若需要轉成語音輸出就再送進後級的T2U(Text...

2023-10-02 ‧ 由 AlbertShiu 分享

0 Like 0 留言 300 瀏覽

DAY 18

DAY18 - SeamlessM4T程式碼中的Vocoder

MetaAI在使用Unit decoder得到轉譯後的語音單元(Unit)後，送入HiFi-GAN Vocoder單元轉換為語音聲波訊號。MetaAI使用兩種H...

2023-10-03 ‧ 由 AlbertShiu 分享

0 Like 0 留言 470 瀏覽

DAY 19

DAY19 - 回顧Transformer架構

本篇回顧一下Transformer架構。Transformer模型包含了注意力（attention）及自注意力（self-attention）且不斷發展技術，可...

2023-10-04 ‧ 由 AlbertShiu 分享

0 Like 0 留言 404 瀏覽

DAY 20

DAY20 - SeamlessM4T中的特徵提取(Unit Extraction)

在前幾篇的文章中我們了解SeamlessM4T的轉譯流程，基本上是將語音或文本先轉成目標語言文本後，再送入T2U(Text-to-Unit)模型，最後將語音單元...

2023-10-05 ‧ 由 AlbertShiu 分享

AlbertShiu的鐵人檔案

AlbertShiu的收藏

AlbertShiu的追蹤

AlbertShiu的Like

AlbertShiu的紀錄

AlbertShiu的訂閱列表

鐵人檔案

利用SeamlessM4T學習語音辨識架構及應用 系列

標記使用者

利用SeamlessM4T學習語音辨識架構及應用系列