iT邦幫忙

鐵人檔案

2023 iThome 鐵人賽
回列表
AI & Data

利用SeamlessM4T學習語音辨識架構及應用 系列

MetaAI推出功能強大的SeamlessM4T統整型轉譯系統,包含ASR、T2TT、S2TT、T2ST及S2ST五種模型,幾乎包含了所有語音辨識模型於其中,適合作為語音辨識學習的範例,故研究其架構及應用。本參賽內容預計涵蓋簡介,ASR、T2TT、S2TT、T2ST及S2ST五種模型程式碼架構及其應用面使用。

鐵人鍊成 | 共 30 篇文章 | 3 人訂閱 訂閱系列文 RSS系列文
DAY 21

DAY21 - SeamlessM4T中的HuBERT模型

所謂的單元(Unit)是指音頻訊號的分析和表示的基本單元,可視之為音訊數據的小塊或小段,通常包含數百至數千毫秒的音訊信號。在語音處理和音訊處理中,將長時間的音訊...

2023-10-06 ‧ 由 AlbertShiu 分享
DAY 22

DAY22 - SeamlessM4T的Audio to Units架構

在SeamlessM4T的開源程式碼中,其實還是有保留S2U(Speech-to-Unit)的功能,在audio_to_units的scripts中可以看出其架...

2023-10-07 ‧ 由 AlbertShiu 分享
DAY 23

DAY23 - 如何訓練HuBERT模型

訓練自己的HuBERT模型,試著使用自己的資料集,練習HuBERT的過程。 資料集準備 遵循 ./simple_kmeans 的步驟(連結)準備以下資料:...

2023-10-08 ‧ 由 AlbertShiu 分享
DAY 24

DAY24 - 如何訓練Transformer模型

Transformer模型包含了注意力(attention)及自注意力(self-attention)且不斷發展技術,可以偵測一個序列中用特別的方式相互影響和相...

2023-10-09 ‧ 由 AlbertShiu 分享
DAY 25

DAY25 - 如何訓練Conformer模型

Conformer(Convolution-augmented Transformer)為卷積增強型Transformer模型,Transformer的自注意力...

2023-10-10 ‧ 由 AlbertShiu 分享
DAY 26

DAY26 - Kaggle挑戰孟加拉語語音轉文字

挑戰Kaggle:Bengali.AI Speech Recognition-Recognize Bengali speech from out-of-dist...

2023-10-11 ‧ 由 AlbertShiu 分享
DAY 27

DAY27 - 基於SeamlessM4T結構替換自己的Transformer模型

若仔細研究UnitY Model中的組成,有語音編碼及解碼器(包含前級)、文本編碼及解碼器(包含前級)、投影層以及文本轉unit模型,UnitY Model的結...

2023-10-12 ‧ 由 AlbertShiu 分享
DAY 28

DAY28 - Attention Is All You Need論文簡介

本文介紹 Attention Is All You Need 論文,發表於 NIPS 2017。其程式碼架構主要是Seq2Seq,還有self-attentio...

2023-10-13 ‧ 由 AlbertShiu 分享
DAY 29

DAY29 - Transformer訓練細節參考Attention Is All You Need

根據 Attention Is All You Need 論文,節錄並了解其訓練模型細節,作為自行訓練模型時的參考。 訓練資料和批次 使用標準 WMT 2014...

2023-10-14 ‧ 由 AlbertShiu 分享
DAY 30

DAY30 - SeamlessM4T功能整理

SeamlessM4T的語音數據處理流程不複雜,前置作業有二:1) 用SeamlessAlign將原始音頻數據做前處理,區別數據中的語言,並對齊數據的長度、維度...

2023-10-15 ‧ 由 AlbertShiu 分享