MetaAI推出功能強大的SeamlessM4T統整型轉譯系統,包含ASR、T2TT、S2TT、T2ST及S2ST五種模型,幾乎包含了所有語音辨識模型於其中,適合作為語音辨識學習的範例,故研究其架構及應用。本參賽內容預計涵蓋簡介,ASR、T2TT、S2TT、T2ST及S2ST五種模型程式碼架構及其應用面使用。
當前的MT(Machine Translation, 機器翻譯)模型多著墨於T2TT(Text-to-Text Translation),如NO Languag...
SeamlessM4T是MetaAI於2023年發佈的統整型機器轉譯系統,包含ASR(Automatic Speech Recognition)、T2TT(Te...
MetaAI對於SeamlessM4T做了很多不同的效能評估,本篇試圖了解官方所用的評估方式及標準,作為日後開發相關模型時的評估依據,也對於當前的機器翻譯(Ma...
SeamlessM4T使用的數據集為Seamless_align,包含用來訓練模型數據集的metadata,其格式與 NLLB(No Language Left...
SeamlessM4T使用了四個MetaAI開發的程式庫,fairseq2、SONAR、BLASER 2.0及stopes。在安裝使用前先了解各程式庫有哪些可以...
本篇介紹使用SeamlessM4T前的環境建置,分為Colab及本機端兩種方式,其中Colab環境建置已經很完善,所以不需要太多的步驟。而本機端則需要比較繁瑣的...
S2TT(Speech-to-Text Translation)為將語音轉為文本的模型,轉譯語言可以選擇。不管是輸入及輸出都可以選擇語言,所涵蓋的語言代號請參考...
S2ST(Speech-to-Speech Translation)是語音轉語音的模型,語言可以選擇,不管是輸入及輸出都可以選擇語言,所涵蓋的語言代號請參考連結...
T2TT(Text-to-Text Translation)是文本轉文本的模型,語言可以選擇,不管是輸入及輸出都可以選擇語言,所涵蓋的語言代號請參考連結:Sea...
T2ST(Text-to-Speech Translation)是文本轉語音的模型,語言可以選擇,不管是輸入及輸出都可以選擇語言,所涵蓋的語言代號請參考連結:S...