iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

0 Like 0 留言 741 瀏覽

鐵人賽 AI & Data DAY 30

利用SeamlessM4T學習語音辨識架構及應用系列第 30 篇

技術 DAY30 - SeamlessM4T功能整理

SeamlessM4T的語音數據處理流程不複雜，前置作業有二：1) 用SeamlessAlign將原始音頻數據做前處理，區別數據中的語言，並對齊數據的長度、維度...

AlbertShiu ‧ 2023-10-15

0 Like 0 留言 469 瀏覽

鐵人賽 AI & Data DAY 29

利用SeamlessM4T學習語音辨識架構及應用系列第 29 篇

技術 DAY29 - Transformer訓練細節參考Attention Is All You Need

根據 Attention Is All You Need 論文，節錄並了解其訓練模型細節，作為自行訓練模型時的參考。訓練資料和批次使用標準 WMT 2014...

AlbertShiu ‧ 2023-10-14

1 Like 0 留言 484 瀏覽

鐵人賽 AI & Data DAY 27

利用SeamlessM4T學習語音辨識架構及應用系列第 27 篇

技術 DAY27 - 基於SeamlessM4T結構替換自己的Transformer模型

若仔細研究UnitY Model中的組成，有語音編碼及解碼器(包含前級)、文本編碼及解碼器(包含前級)、投影層以及文本轉unit模型，UnitY Model的結...

AlbertShiu ‧ 2023-10-12

0 Like 0 留言 327 瀏覽

鐵人賽 AI & Data DAY 26

利用SeamlessM4T學習語音辨識架構及應用系列第 26 篇

技術 DAY26 - Kaggle挑戰孟加拉語語音轉文字

挑戰Kaggle：Bengali.AI Speech Recognition-Recognize Bengali speech from out-of-dist...

AlbertShiu ‧ 2023-10-11

0 Like 0 留言 684 瀏覽

鐵人賽 AI & Data DAY 25

利用SeamlessM4T學習語音辨識架構及應用系列第 25 篇

技術 DAY25 - 如何訓練Conformer模型

Conformer(Convolution-augmented Transformer)為卷積增強型Transformer模型，Transformer的自注意力...

AlbertShiu ‧ 2023-10-10

0 Like 0 留言 773 瀏覽

鐵人賽 AI & Data DAY 24

利用SeamlessM4T學習語音辨識架構及應用系列第 24 篇

技術 DAY24 - 如何訓練Transformer模型

Transformer模型包含了注意力（attention）及自注意力（self-attention）且不斷發展技術，可以偵測一個序列中用特別的方式相互影響和相...

AlbertShiu ‧ 2023-10-09

0 Like 0 留言 637 瀏覽

鐵人賽 AI & Data DAY 23

利用SeamlessM4T學習語音辨識架構及應用系列第 23 篇

技術 DAY23 - 如何訓練HuBERT模型

訓練自己的HuBERT模型，試著使用自己的資料集，練習HuBERT的過程。資料集準備遵循 ./simple_kmeans 的步驟(連結)準備以下資料：...

AlbertShiu ‧ 2023-10-08

0 Like 0 留言 473 瀏覽

鐵人賽 AI & Data DAY 22

利用SeamlessM4T學習語音辨識架構及應用系列第 22 篇

技術 DAY22 - SeamlessM4T的Audio to Units架構

在SeamlessM4T的開源程式碼中，其實還是有保留S2U(Speech-to-Unit)的功能，在audio_to_units的scripts中可以看出其架...

AlbertShiu ‧ 2023-10-07

0 Like 0 留言 692 瀏覽

鐵人賽 AI & Data DAY 21

利用SeamlessM4T學習語音辨識架構及應用系列第 21 篇

技術 DAY21 - SeamlessM4T中的HuBERT模型

所謂的單元(Unit)是指音頻訊號的分析和表示的基本單元，可視之為音訊數據的小塊或小段，通常包含數百至數千毫秒的音訊信號。在語音處理和音訊處理中，將長時間的音訊...

AlbertShiu ‧ 2023-10-06

0 Like 0 留言 430 瀏覽

鐵人賽 AI & Data DAY 20

利用SeamlessM4T學習語音辨識架構及應用系列第 20 篇

技術 DAY20 - SeamlessM4T中的特徵提取(Unit Extraction)

在前幾篇的文章中我們了解SeamlessM4T的轉譯流程，基本上是將語音或文本先轉成目標語言文本後，再送入T2U(Text-to-Unit)模型，最後將語音單元...

AlbertShiu ‧ 2023-10-05

0 Like 0 留言 544 瀏覽

鐵人賽 AI & Data DAY 19

利用SeamlessM4T學習語音辨識架構及應用系列第 19 篇

技術 DAY19 - 回顧Transformer架構

本篇回顧一下Transformer架構。Transformer模型包含了注意力（attention）及自注意力（self-attention）且不斷發展技術，可...

AlbertShiu ‧ 2023-10-04

0 Like 0 留言 357 瀏覽

鐵人賽 AI & Data DAY 18

利用SeamlessM4T學習語音辨識架構及應用系列第 18 篇

技術 DAY18 - SeamlessM4T程式碼中的Vocoder

MetaAI在使用Unit decoder得到轉譯後的語音單元(Unit)後，送入HiFi-GAN Vocoder單元轉換為語音聲波訊號。MetaAI使用兩種H...

AlbertShiu ‧ 2023-10-03

0 Like 0 留言 307 瀏覽

鐵人賽 AI & Data DAY 17

利用SeamlessM4T學習語音辨識架構及應用系列第 17 篇

技術 DAY17 - SeamlessM4T中的T2U Encoder 及 Unit Decoder

SeamlessM4T在Text decoder產生文本後已達成三種任務的功能，包含S2TT、T2TT、ASR。若需要轉成語音輸出就再送進後級的T2U(Text...

AlbertShiu ‧ 2023-10-02

0 Like 0 留言 1138 瀏覽

鐵人賽 AI & Data DAY 16

利用SeamlessM4T學習語音辨識架構及應用系列第 16 篇

技術 DAY16 - SeamlessM4T中的Text Decoder

MetaAI使用基於文字的 mBART (t-mBART) 預訓練模型作為UnitY模型的第一階段解碼器，且充分利用未標記的文字數據。什麼是mBART? 過去...

AlbertShiu ‧ 2023-10-01

0 Like 0 留言 977 瀏覽

鐵人賽 AI & Data DAY 15

利用SeamlessM4T學習語音辨識架構及應用系列第 15 篇

技術 DAY15 - SeamlessM4T中的Conformer

Conformer(Convolution-augmented Transformer)增強卷積Transformer，Transformer的自注意力層可以針...

AlbertShiu ‧ 2023-09-30

0 Like 0 留言 420 瀏覽

鐵人賽 AI & Data DAY 14

利用SeamlessM4T學習語音辨識架構及應用系列第 14 篇

技術 DAY14 - SeamlessM4T的UnitY Model架構

UnitY模型由四個模組組成：語音編碼器、第一階段文本解碼器、文字轉語音單元 (T2U) 編碼器和第二階段單元解碼器。UnityY 不只承襲Translatot...

AlbertShiu ‧ 2023-09-29

0 Like 0 留言 335 瀏覽

鐵人賽 AI & Data DAY 13

利用SeamlessM4T學習語音辨識架構及應用系列第 13 篇

技術 DAY13 - SeamlessM4T的UnitYModel及get_prediction函式程式碼結構

上一篇討論到SeamlessM4T在轉譯過程中最重要的是Translator以及predict這兩個函式，發現這兩支主程式又分別引用了兩個函式，UnitYMod...

AlbertShiu ‧ 2023-09-28

0 Like 0 留言 523 瀏覽

鐵人賽 AI & Data DAY 12

利用SeamlessM4T學習語音辨識架構及應用系列第 12 篇

技術 DAY12 - SeamlessM4T的Translator及predict程式碼架構

SeamlessM4T在轉譯過程中最重要的是Translator以及predict這兩個函式，故在本篇研究這兩個函式的架構。 Translator程式碼結構在...

AlbertShiu ‧ 2023-09-27

0 Like 0 留言 612 瀏覽

鐵人賽 AI & Data DAY 11

利用SeamlessM4T學習語音辨識架構及應用系列第 11 篇

技術 DAY11 - SeamlessM4T的ASR功能使用測試

ASR(Automatic Speech Recognition)為語音辨識模型，語言可以選擇，不管是輸入及輸出都可以選擇語言，所涵蓋的語言代號請參考連結：Se...

AlbertShiu ‧ 2023-09-26

0 Like 0 留言 456 瀏覽

鐵人賽 AI & Data DAY 10

利用SeamlessM4T學習語音辨識架構及應用系列第 10 篇

技術 DAY10 - SeamlessM4T的T2ST功能體驗

T2ST(Text-to-Speech Translation)是文本轉語音的模型，語言可以選擇，不管是輸入及輸出都可以選擇語言，所涵蓋的語言代號請參考連結：S...

AlbertShiu ‧ 2023-09-25

0 Like 0 留言 550 瀏覽

鐵人賽 AI & Data DAY 9

利用SeamlessM4T學習語音辨識架構及應用系列第 9 篇

技術 DAY09 - SeamlessM4T的T2TT功能評測

T2TT(Text-to-Text Translation)是文本轉文本的模型，語言可以選擇，不管是輸入及輸出都可以選擇語言，所涵蓋的語言代號請參考連結：Sea...

AlbertShiu ‧ 2023-09-24

0 Like 0 留言 780 瀏覽

鐵人賽 AI & Data DAY 8

利用SeamlessM4T學習語音辨識架構及應用系列第 8 篇

技術 DAY08 - 測試SeamlessM4T的S2ST(Speech-to-Speech Translation)功能

S2ST(Speech-to-Speech Translation)是語音轉語音的模型，語言可以選擇，不管是輸入及輸出都可以選擇語言，所涵蓋的語言代號請參考連結...

AlbertShiu ‧ 2023-09-23

0 Like 0 留言 721 瀏覽

鐵人賽 AI & Data DAY 7

利用SeamlessM4T學習語音辨識架構及應用系列第 7 篇

技術 DAY07 - SeamlessM4T的S2TT(Speech-to-Text Translation)功能體驗

S2TT(Speech-to-Text Translation)為將語音轉為文本的模型，轉譯語言可以選擇。不管是輸入及輸出都可以選擇語言，所涵蓋的語言代號請參考...

AlbertShiu ‧ 2023-09-22

0 Like 0 留言 1922 瀏覽

鐵人賽 AI & Data DAY 6

利用SeamlessM4T學習語音辨識架構及應用系列第 6 篇

技術 DAY06 - SeamlessM4T安裝及使用環境建置

本篇介紹使用SeamlessM4T前的環境建置，分為Colab及本機端兩種方式，其中Colab環境建置已經很完善，所以不需要太多的步驟。而本機端則需要比較繁瑣的...

AlbertShiu ‧ 2023-09-21

0 Like 0 留言 608 瀏覽

鐵人賽 AI & Data DAY 5

利用SeamlessM4T學習語音辨識架構及應用系列第 5 篇

技術 DAY05 - SeamlessM4T所引用的程式庫

SeamlessM4T使用了四個MetaAI開發的程式庫，fairseq2、SONAR、BLASER 2.0及stopes。在安裝使用前先了解各程式庫有哪些可以...

AlbertShiu ‧ 2023-09-20

0 Like 0 留言 534 瀏覽

鐵人賽 AI & Data DAY 4

利用SeamlessM4T學習語音辨識架構及應用系列第 4 篇

技術 DAY04 - SeamlessM4T使用的數據集Seamless_align

SeamlessM4T使用的數據集為Seamless_align，包含用來訓練模型數據集的metadata，其格式與 NLLB(No Language Left...

AlbertShiu ‧ 2023-09-19

0 Like 0 留言 682 瀏覽

鐵人賽 AI & Data DAY 3

利用SeamlessM4T學習語音辨識架構及應用系列第 3 篇

技術 DAY03 - SeamlessM4T 官方所用的效能評估標準

MetaAI對於SeamlessM4T做了很多不同的效能評估，本篇試圖了解官方所用的評估方式及標準，作為日後開發相關模型時的評估依據，也對於當前的機器翻譯(Ma...

AlbertShiu ‧ 2023-09-18

0 Like 0 留言 886 瀏覽

鐵人賽 AI & Data DAY 2

利用SeamlessM4T學習語音辨識架構及應用系列第 2 篇

技術 DAY02 - SeamlessM4T 模型工作流程

SeamlessM4T是MetaAI於2023年發佈的統整型機器轉譯系統，包含ASR(Automatic Speech Recognition)、T2TT(Te...

AlbertShiu ‧ 2023-09-17

0 Like 0 留言 3135 瀏覽

技術 Meta SeamlessM4T 淺嚐翻譯蒟蒻的滋味

簡介最近 Meta 釋出了多語多模 AI 翻譯模型 SeamlessM4T，宣稱支援近 100 種語言，而且有開源模型權重，於是筆者就來體驗了一下這個模型，看...

Penut Chen ‧ 2023-08-23