iT邦幫忙

鐵人檔案

2023 iThome 鐵人賽
回列表
AI & Data

利用SeamlessM4T學習語音辨識架構及應用 系列

MetaAI推出功能強大的SeamlessM4T統整型轉譯系統,包含ASR、T2TT、S2TT、T2ST及S2ST五種模型,幾乎包含了所有語音辨識模型於其中,適合作為語音辨識學習的範例,故研究其架構及應用。本參賽內容預計涵蓋簡介,ASR、T2TT、S2TT、T2ST及S2ST五種模型程式碼架構及其應用面使用。

鐵人鍊成 | 共 30 篇文章 | 3 人訂閱 訂閱系列文 RSS系列文
DAY 1

DAY01 - 語音辨識現況及MetaAI的突破

當前的MT(Machine Translation, 機器翻譯)模型多著墨於T2TT(Text-to-Text Translation),如NO Languag...

2023-09-16 ‧ 由 AlbertShiu 分享
DAY 2

DAY02 - SeamlessM4T 模型工作流程

SeamlessM4T是MetaAI於2023年發佈的統整型機器轉譯系統,包含ASR(Automatic Speech Recognition)、T2TT(Te...

2023-09-17 ‧ 由 AlbertShiu 分享
DAY 3

DAY03 - SeamlessM4T 官方所用的效能評估標準

MetaAI對於SeamlessM4T做了很多不同的效能評估,本篇試圖了解官方所用的評估方式及標準,作為日後開發相關模型時的評估依據,也對於當前的機器翻譯(Ma...

2023-09-18 ‧ 由 AlbertShiu 分享
DAY 4

DAY04 - SeamlessM4T使用的數據集Seamless_align

SeamlessM4T使用的數據集為Seamless_align,包含用來訓練模型數據集的metadata,其格式與 NLLB(No Language Left...

2023-09-19 ‧ 由 AlbertShiu 分享
DAY 5

DAY05 - SeamlessM4T所引用的程式庫

SeamlessM4T使用了四個MetaAI開發的程式庫,fairseq2、SONAR、BLASER 2.0及stopes。在安裝使用前先了解各程式庫有哪些可以...

2023-09-20 ‧ 由 AlbertShiu 分享
DAY 6

DAY06 - SeamlessM4T安裝及使用環境建置

本篇介紹使用SeamlessM4T前的環境建置,分為Colab及本機端兩種方式,其中Colab環境建置已經很完善,所以不需要太多的步驟。而本機端則需要比較繁瑣的...

2023-09-21 ‧ 由 AlbertShiu 分享
DAY 7

DAY07 - SeamlessM4T的S2TT(Speech-to-Text Translation)功能體驗

S2TT(Speech-to-Text Translation)為將語音轉為文本的模型,轉譯語言可以選擇。不管是輸入及輸出都可以選擇語言,所涵蓋的語言代號請參考...

2023-09-22 ‧ 由 AlbertShiu 分享
DAY 8

DAY08 - 測試SeamlessM4T的S2ST(Speech-to-Speech Translation)功能

S2ST(Speech-to-Speech Translation)是語音轉語音的模型,語言可以選擇,不管是輸入及輸出都可以選擇語言,所涵蓋的語言代號請參考連結...

2023-09-23 ‧ 由 AlbertShiu 分享
DAY 9

DAY09 - SeamlessM4T的T2TT功能評測

T2TT(Text-to-Text Translation)是文本轉文本的模型,語言可以選擇,不管是輸入及輸出都可以選擇語言,所涵蓋的語言代號請參考連結:Sea...

2023-09-24 ‧ 由 AlbertShiu 分享
DAY 10

DAY10 - SeamlessM4T的T2ST功能體驗

T2ST(Text-to-Speech Translation)是文本轉語音的模型,語言可以選擇,不管是輸入及輸出都可以選擇語言,所涵蓋的語言代號請參考連結:S...

2023-09-25 ‧ 由 AlbertShiu 分享