iT邦幫忙

2023 iThome 鐵人賽

DAY 3
0
AI & Data

利用SeamlessM4T學習語音辨識架構及應用系列 第 3

DAY03 - SeamlessM4T 官方所用的效能評估標準

  • 分享至 

  • xImage
  •  

MetaAI對於SeamlessM4T做了很多不同的效能評估,本篇試圖了解官方所用的評估方式及標準,作為日後開發相關模型時的評估依據,也對於當前的機器翻譯(Machine Translation)開發者所在意的評估層面有個理解。

SeamlessM4T - S2TT(Speech-to-text translation)評估

SeamlessM4T-Large 是MetaAI發布的其中一種的型號,性能號稱優於其他同樣為最先進的端對端 S2TT模型 (AudioPaLM-2-8BAST)。轉譯成英語時Fleurs提高了 4.2個BLEU。轉譯英文到其他語言時,相較於XLSR-2B-S2T系統,SeamlessM4T-Large在CoVoST2資料集上改善了2.8 個BLEU。

  • Fleurs(Few-shot Learning Evaluation of Universal Representations of Speech benchmark):包含 102 種語言的語音數據集,每種語言大約有 12 小時的語音訊號。 FLEURS 可用於各種語音任務,包括自動語音辨識 (ASR)、語音語言辨識 (Speech LangID)、翻譯和檢索。
  • BLEU(Bilingual Evaluation Understudy):用來評估自然語言翻譯為另一種自然語言品質的演算法。BLEU背後的中心思想是越接近專業的人類翻譯越好。透過將各個段落與一組高品質的參考段落進行比較計算分數,最後對這些分數平均來評估整體翻譯品質。評估不考慮可懂性和語法正確性。
  • CoVoST2:CoVoST2 是一個大型多語言語音翻譯語料庫,涵蓋 21 種轉譯到英語的語言,以及15種從英語轉譯的語言。該數據集是使用Mozilla的開源Common Voice數據庫創建的錄音,包含 2,900 小時的語音數據。

SeamlessM4T - S2ST(Speech-to-Speech translation)評估

在S2ST功能方面,SeamlessM4T-Large為統整性的端對端模型,它的的Fleurs比其他三階段串聯模型(ASR、T2TT 和 TTS,非端對端模型)高了2.6個BLEU。在CVSS資料集上SeamlessM4T-Large的性能優於二階段串聯模型(Whisper-Large-v2 + YourTTS [Casanova et al., 2022]),提高了8.5個BLEU。從英語轉譯成其他語言時,24 種評估語言的XSTS分數高於4(滿分5分);從其他語言轉譯成英語,24種語言中的其中7種表現相較於Whisper-Large-v2系統有顯著改進。SeamlessM4T-Large的性能也優於 Whisper-Large-v2,在77 種重疊語言上Fleurs的WER降低了45%。在評估Flores的T2TT時與NLLB-3.3B性能相匹配,翻譯成英語時平均提高1個chrF++分數。

  • CVSS:大規模多語言到英語的S2ST語料庫,涵蓋從21種語言到英語的句子並行S2ST翻譯組合。CVSS源自Common Voice語音語料庫和CoVoST2語音對文本翻譯語料庫,CVSS中的翻譯語音是通過在 LibriTTS 語料庫上訓練的兩個最先進的 TTS 模型合成的。CVSS包括CoVoST2中所有 21個 x-en 語言組合的兩個版本的口語翻譯:

    • CVSS-C:所有翻譯語音均採用單一說話者的聲音。儘管是合成的,但自然度和乾淨度都非常高,說話風格也很一致,這些屬性簡化了目標語音的建模。
    • CVSS-T:翻譯語音來自於相對應的語音源,儘管使用不同的語言,每個翻譯組合的兩側都有相似的聲音,使得該數據集適合構建在將語音翻譯成不同語言時保留說話者聲音的模型。
  • XSTS(Cross-lingual semantic textual similarity systems):用來評估兩個不同語言的句子間的含義相似度。最先進的算法通常採用機器翻譯並結合大量特徵,使得該方法受到嚴格監督且資源豐富,不過難以用於資源匱乏的語言。

  • 重疊語言:不同語言同時交雜。

  • WER:語音字數中翻譯的錯誤率,翻譯錯字數與總字數的比例。語音轉文本的WER越低代表準確性越高。例如20%的WER表示準確度為80%。

  • Flores:英語和四種資源缺少的語言(尼泊爾語、僧伽羅語、高棉語和普什圖語)之間機器翻譯的數據集,來自於維基百科翻譯的句子。

  • chrF++:chrF和chrF++是兩個MT評估指標。它們都使用F-score來進行n元語法(n-grams)評估。而ChrF++還加入n元語法使直接評估的相關性更強。

Blaser 2.0評估指標

MetaAI另外開發了Blaser 2.0,一種無文本的文本或語音翻譯評估指標。在S2TT和S2ST的表現,Blaser 2.0能夠跨語音和文本進行評估,從結果來看SeamlessM4T-Large比 Whisper-Large-v2表現更好,能夠抵抗背景噪聲和揚聲器變化。

  • Blaser 2.0:Blaser是無文本的語音到語音翻譯評估指標,而Blaser 2.0能夠跨語音和文本模式進行評估。

Responsible AI理念

至於Responsible AI部分,MetaAI關注說壞話(toxicity, 毒性)和性別偏見評估。說壞話的發生率較低。與最先進的模型Whisper-Largev2相比,顯著減少了說壞話比率26%~63%。另外MetaAI評估整體偏見的性別偏見數據集,發現SeamlessM4T翻譯時將中性術語過度轉譯為男性說話方式,同時當性別變化率約 3% 時的表現缺乏穩健性。

  • Responsible AI (RAI):是一種理想的AI模式,認為發展AI的同時也應注重人類個體獨特性,如性別與種族間的不同,說話習慣的不同。
  • 毒性(toxicity):意指說壞話、髒話、傷害性語言。

總結

MT(Machine Translation)系統的評估標準常用的有BLEU、XSTS、WER、chrF++以及Blaser 2.0五種。BLEU促使MT系統接近人類翻譯的品質;XSTS用來評估兩個不同語言的句子間的含義相似度;WER為語音字數的翻譯錯誤率,為翻譯錯的字數與總字數的比例,使用F指數來進行n-grams匹配。而ChrF++用F-score來進行n元語法(n-grams)評估。最後Blaser 2.0能跨語音和文本模式進行評估。這些都是日後自行開發模型時,可用來評估效能的標準依據。


上一篇
DAY02 - SeamlessM4T 模型工作流程
下一篇
DAY04 - SeamlessM4T使用的數據集Seamless_align
系列文
利用SeamlessM4T學習語音辨識架構及應用30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言