利用SeamlessM4T學習語音辨識架構及應用

AlbertShiu (albertxu59)

iT邦新手 5 級 ‧ 點數 174

3815

累計瀏覽數

1人

在追蹤

站內簡訊追蹤

鐵人檔案

2023 iThome 鐵人賽

回列表

AI & Data

利用SeamlessM4T學習語音辨識架構及應用系列

MetaAI推出功能強大的SeamlessM4T統整型轉譯系統，包含ASR、T2TT、S2TT、T2ST及S2ST五種模型，幾乎包含了所有語音辨識模型於其中，適合作為語音辨識學習的範例，故研究其架構及應用。本參賽內容預計涵蓋簡介，ASR、T2TT、S2TT、T2ST及S2ST五種模型程式碼架構及其應用面使用。

鐵人鍊成｜共 30 篇文章｜ 3 人訂閱訂閱系列文 RSS系列文

0 Like 0 留言 720 瀏覽

DAY 1

DAY01 - 語音辨識現況及MetaAI的突破

當前的MT(Machine Translation, 機器翻譯)模型多著墨於T2TT(Text-to-Text Translation)，如NO Languag...

2023-09-16 ‧ 由 AlbertShiu 分享

0 Like 0 留言 914 瀏覽

DAY 2

DAY02 - SeamlessM4T 模型工作流程

SeamlessM4T是MetaAI於2023年發佈的統整型機器轉譯系統，包含ASR(Automatic Speech Recognition)、T2TT(Te...

2023-09-17 ‧ 由 AlbertShiu 分享

0 Like 0 留言 711 瀏覽

DAY 3

DAY03 - SeamlessM4T 官方所用的效能評估標準

MetaAI對於SeamlessM4T做了很多不同的效能評估，本篇試圖了解官方所用的評估方式及標準，作為日後開發相關模型時的評估依據，也對於當前的機器翻譯(Ma...

2023-09-18 ‧ 由 AlbertShiu 分享

0 Like 0 留言 546 瀏覽

DAY 4

DAY04 - SeamlessM4T使用的數據集Seamless_align

SeamlessM4T使用的數據集為Seamless_align，包含用來訓練模型數據集的metadata，其格式與 NLLB(No Language Left...

2023-09-19 ‧ 由 AlbertShiu 分享

0 Like 0 留言 646 瀏覽

DAY 5

DAY05 - SeamlessM4T所引用的程式庫

SeamlessM4T使用了四個MetaAI開發的程式庫，fairseq2、SONAR、BLASER 2.0及stopes。在安裝使用前先了解各程式庫有哪些可以...

2023-09-20 ‧ 由 AlbertShiu 分享

0 Like 0 留言 2019 瀏覽

DAY 6

DAY06 - SeamlessM4T安裝及使用環境建置

本篇介紹使用SeamlessM4T前的環境建置，分為Colab及本機端兩種方式，其中Colab環境建置已經很完善，所以不需要太多的步驟。而本機端則需要比較繁瑣的...

2023-09-21 ‧ 由 AlbertShiu 分享

0 Like 0 留言 751 瀏覽

DAY 7

DAY07 - SeamlessM4T的S2TT(Speech-to-Text Translation)功能體驗

S2TT(Speech-to-Text Translation)為將語音轉為文本的模型，轉譯語言可以選擇。不管是輸入及輸出都可以選擇語言，所涵蓋的語言代號請參考...

2023-09-22 ‧ 由 AlbertShiu 分享

0 Like 0 留言 805 瀏覽

DAY 8

DAY08 - 測試SeamlessM4T的S2ST(Speech-to-Speech Translation)功能

S2ST(Speech-to-Speech Translation)是語音轉語音的模型，語言可以選擇，不管是輸入及輸出都可以選擇語言，所涵蓋的語言代號請參考連結...

2023-09-23 ‧ 由 AlbertShiu 分享

0 Like 0 留言 581 瀏覽

DAY 9

DAY09 - SeamlessM4T的T2TT功能評測

T2TT(Text-to-Text Translation)是文本轉文本的模型，語言可以選擇，不管是輸入及輸出都可以選擇語言，所涵蓋的語言代號請參考連結：Sea...

2023-09-24 ‧ 由 AlbertShiu 分享

0 Like 0 留言 474 瀏覽

DAY 10

DAY10 - SeamlessM4T的T2ST功能體驗

T2ST(Text-to-Speech Translation)是文本轉語音的模型，語言可以選擇，不管是輸入及輸出都可以選擇語言，所涵蓋的語言代號請參考連結：S...

2023-09-25 ‧ 由 AlbertShiu 分享

AlbertShiu的鐵人檔案

AlbertShiu的收藏

AlbertShiu的追蹤

AlbertShiu的Like

AlbertShiu的紀錄

AlbertShiu的訂閱列表

鐵人檔案

利用SeamlessM4T學習語音辨識架構及應用 系列

標記使用者

利用SeamlessM4T學習語音辨識架構及應用系列