iT邦幫忙

2023 iThome 鐵人賽

DAY 28
0
AI & Data

利用SeamlessM4T學習語音辨識架構及應用系列 第 28

DAY28 - Attention Is All You Need論文簡介

  • 分享至 

  • xImage
  •  

本文介紹 Attention Is All You Need 論文,發表於 NIPS 2017。其程式碼架構主要是Seq2Seq,還有self-attention機制。

Seq2Seq

其架構為 Encoder-Decoder,如下圖所示,Encoder 會先將輸入句子進行編碼,得到的狀態會傳給 Decoder 解碼生成目標句子。

Attention Mechanism

但是當訊息太長時,seq2seq 容易丟失訊息,因此引入了注意力機制 (Attention Mechanism)。其概念為將 Encoder 所有資訊都傳給 Decoder,讓 Decoder 決定把注意力放在哪些資訊上。

Attention Is All You Need

Attention Is All You Need 論文中提出一種新的簡單網路架構,Transformer,僅基於注意力機制,不需要遞迴層和完全卷積層。 模型在 WMT 2014 德語翻譯任務上獲得了28.4 BLEU
德語翻譯任務。 在WMT 2014英法翻譯任務中,模型獲得BLEU 分數 41.8,在 8 個 GPU 上訓練 3.5 天。 Transformer 可以很好地透過大量且有限的訓練資料,成功應用於英語翻譯任務。


上一篇
DAY27 - 基於SeamlessM4T結構替換自己的Transformer模型
下一篇
DAY29 - Transformer訓練細節參考Attention Is All You Need
系列文
利用SeamlessM4T學習語音辨識架構及應用30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言