本文介紹 Attention Is All You Need 論文,發表於 NIPS 2017。其程式碼架構主要是Seq2Seq,還有self-attention機制。
其架構為 Encoder-Decoder,如下圖所示,Encoder 會先將輸入句子進行編碼,得到的狀態會傳給 Decoder 解碼生成目標句子。
但是當訊息太長時,seq2seq 容易丟失訊息,因此引入了注意力機制 (Attention Mechanism)。其概念為將 Encoder 所有資訊都傳給 Decoder,讓 Decoder 決定把注意力放在哪些資訊上。
Attention Is All You Need 論文中提出一種新的簡單網路架構,Transformer,僅基於注意力機制,不需要遞迴層和完全卷積層。 模型在 WMT 2014 德語翻譯任務上獲得了28.4 BLEU
德語翻譯任務。 在WMT 2014英法翻譯任務中,模型獲得BLEU 分數 41.8,在 8 個 GPU 上訓練 3.5 天。 Transformer 可以很好地透過大量且有限的訓練資料,成功應用於英語翻譯任務。