iT邦幫忙

seamlessm4t相關文章
共有 29 則文章
鐵人賽 AI & Data DAY 30

技術 DAY30 - SeamlessM4T功能整理

SeamlessM4T的語音數據處理流程不複雜,前置作業有二:1) 用SeamlessAlign將原始音頻數據做前處理,區別數據中的語言,並對齊數據的長度、維度...

鐵人賽 AI & Data DAY 29

技術 DAY29 - Transformer訓練細節參考Attention Is All You Need

根據 Attention Is All You Need 論文,節錄並了解其訓練模型細節,作為自行訓練模型時的參考。 訓練資料和批次 使用標準 WMT 2014...

鐵人賽 AI & Data DAY 27

技術 DAY27 - 基於SeamlessM4T結構替換自己的Transformer模型

若仔細研究UnitY Model中的組成,有語音編碼及解碼器(包含前級)、文本編碼及解碼器(包含前級)、投影層以及文本轉unit模型,UnitY Model的結...

鐵人賽 AI & Data DAY 26

技術 DAY26 - Kaggle挑戰孟加拉語語音轉文字

挑戰Kaggle:Bengali.AI Speech Recognition-Recognize Bengali speech from out-of-dist...

鐵人賽 AI & Data DAY 25

技術 DAY25 - 如何訓練Conformer模型

Conformer(Convolution-augmented Transformer)為卷積增強型Transformer模型,Transformer的自注意力...

鐵人賽 AI & Data DAY 24

技術 DAY24 - 如何訓練Transformer模型

Transformer模型包含了注意力(attention)及自注意力(self-attention)且不斷發展技術,可以偵測一個序列中用特別的方式相互影響和相...

鐵人賽 AI & Data DAY 23

技術 DAY23 - 如何訓練HuBERT模型

訓練自己的HuBERT模型,試著使用自己的資料集,練習HuBERT的過程。 資料集準備 遵循 ./simple_kmeans 的步驟(連結)準備以下資料:...

鐵人賽 AI & Data DAY 22

技術 DAY22 - SeamlessM4T的Audio to Units架構

在SeamlessM4T的開源程式碼中,其實還是有保留S2U(Speech-to-Unit)的功能,在audio_to_units的scripts中可以看出其架...

鐵人賽 AI & Data DAY 21

技術 DAY21 - SeamlessM4T中的HuBERT模型

所謂的單元(Unit)是指音頻訊號的分析和表示的基本單元,可視之為音訊數據的小塊或小段,通常包含數百至數千毫秒的音訊信號。在語音處理和音訊處理中,將長時間的音訊...

鐵人賽 AI & Data DAY 20

技術 DAY20 - SeamlessM4T中的特徵提取(Unit Extraction)

在前幾篇的文章中我們了解SeamlessM4T的轉譯流程,基本上是將語音或文本先轉成目標語言文本後,再送入T2U(Text-to-Unit)模型,最後將語音單元...

鐵人賽 AI & Data DAY 19

技術 DAY19 - 回顧Transformer架構

本篇回顧一下Transformer架構。Transformer模型包含了注意力(attention)及自注意力(self-attention)且不斷發展技術,可...

鐵人賽 AI & Data DAY 18

技術 DAY18 - SeamlessM4T程式碼中的Vocoder

MetaAI在使用Unit decoder得到轉譯後的語音單元(Unit)後,送入HiFi-GAN Vocoder單元轉換為語音聲波訊號。MetaAI使用兩種H...

鐵人賽 AI & Data DAY 17

技術 DAY17 - SeamlessM4T中的T2U Encoder 及 Unit Decoder

SeamlessM4T在Text decoder產生文本後已達成三種任務的功能,包含S2TT、T2TT、ASR。若需要轉成語音輸出就再送進後級的T2U(Text...

鐵人賽 AI & Data DAY 16

技術 DAY16 - SeamlessM4T中的Text Decoder

MetaAI使用基於文字的 mBART (t-mBART) 預訓練模型作為UnitY模型的第一階段解碼器,且充分利用未標記的文字數據。 什麼是mBART? 過去...

鐵人賽 AI & Data DAY 15

技術 DAY15 - SeamlessM4T中的Conformer

Conformer(Convolution-augmented Transformer)增強卷積Transformer,Transformer的自注意力層可以針...

鐵人賽 AI & Data DAY 14

技術 DAY14 - SeamlessM4T的UnitY Model架構

UnitY模型由四個模組組成:語音編碼器、第一階段文本解碼器、文字轉語音單元 (T2U) 編碼器和第二階段單元解碼器。UnityY 不只承襲Translatot...

鐵人賽 AI & Data DAY 13

技術 DAY13 - SeamlessM4T的UnitYModel及get_prediction函式程式碼結構

上一篇討論到SeamlessM4T在轉譯過程中最重要的是Translator以及predict這兩個函式,發現這兩支主程式又分別引用了兩個函式,UnitYMod...

鐵人賽 AI & Data DAY 12

技術 DAY12 - SeamlessM4T的Translator及predict程式碼架構

SeamlessM4T在轉譯過程中最重要的是Translator以及predict這兩個函式,故在本篇研究這兩個函式的架構。 Translator程式碼結構 在...

鐵人賽 AI & Data DAY 11

技術 DAY11 - SeamlessM4T的ASR功能使用測試

ASR(Automatic Speech Recognition)為語音辨識模型,語言可以選擇,不管是輸入及輸出都可以選擇語言,所涵蓋的語言代號請參考連結:Se...

鐵人賽 AI & Data DAY 10

技術 DAY10 - SeamlessM4T的T2ST功能體驗

T2ST(Text-to-Speech Translation)是文本轉語音的模型,語言可以選擇,不管是輸入及輸出都可以選擇語言,所涵蓋的語言代號請參考連結:S...

鐵人賽 AI & Data DAY 9

技術 DAY09 - SeamlessM4T的T2TT功能評測

T2TT(Text-to-Text Translation)是文本轉文本的模型,語言可以選擇,不管是輸入及輸出都可以選擇語言,所涵蓋的語言代號請參考連結:Sea...

鐵人賽 AI & Data DAY 8

技術 DAY08 - 測試SeamlessM4T的S2ST(Speech-to-Speech Translation)功能

S2ST(Speech-to-Speech Translation)是語音轉語音的模型,語言可以選擇,不管是輸入及輸出都可以選擇語言,所涵蓋的語言代號請參考連結...

鐵人賽 AI & Data DAY 7

技術 DAY07 - SeamlessM4T的S2TT(Speech-to-Text Translation)功能體驗

S2TT(Speech-to-Text Translation)為將語音轉為文本的模型,轉譯語言可以選擇。不管是輸入及輸出都可以選擇語言,所涵蓋的語言代號請參考...

鐵人賽 AI & Data DAY 6

技術 DAY06 - SeamlessM4T安裝及使用環境建置

本篇介紹使用SeamlessM4T前的環境建置,分為Colab及本機端兩種方式,其中Colab環境建置已經很完善,所以不需要太多的步驟。而本機端則需要比較繁瑣的...

鐵人賽 AI & Data DAY 5

技術 DAY05 - SeamlessM4T所引用的程式庫

SeamlessM4T使用了四個MetaAI開發的程式庫,fairseq2、SONAR、BLASER 2.0及stopes。在安裝使用前先了解各程式庫有哪些可以...

鐵人賽 AI & Data DAY 4

技術 DAY04 - SeamlessM4T使用的數據集Seamless_align

SeamlessM4T使用的數據集為Seamless_align,包含用來訓練模型數據集的metadata,其格式與 NLLB(No Language Left...

鐵人賽 AI & Data DAY 3

技術 DAY03 - SeamlessM4T 官方所用的效能評估標準

MetaAI對於SeamlessM4T做了很多不同的效能評估,本篇試圖了解官方所用的評估方式及標準,作為日後開發相關模型時的評估依據,也對於當前的機器翻譯(Ma...

鐵人賽 AI & Data DAY 2

技術 DAY02 - SeamlessM4T 模型工作流程

SeamlessM4T是MetaAI於2023年發佈的統整型機器轉譯系統,包含ASR(Automatic Speech Recognition)、T2TT(Te...

技術 Meta SeamlessM4T 淺嚐翻譯蒟蒻的滋味

簡介 最近 Meta 釋出了多語多模 AI 翻譯模型 SeamlessM4T,宣稱支援近 100 種語言,而且有開源模型權重,於是筆者就來體驗了一下這個模型,看...