iT邦幫忙

2022 iThome 鐵人賽

DAY 7
0
AI & Data

30天AI馴獸師之生存日記系列 第 7

【Day 07】解剖 Transformer

  • 分享至 

  • xImage
  •  

Transformer 作為一個 NLPer 一定要知道的經典模型,沒有手刻一遍好像說不過去。
本文將搭配原理詳解 Transformer 的各個 component 的實作方法。(之後會更新)

Encoder

Decoder

Teacher-forcing

一開始實作 Decoder 時,我對於為什麼要實作一個遮罩避免模型先偷看到答案這件事情,感到非常疑惑。難道不是一個一個字 decode 嗎?為什麼會有偷看到答案的問題呢?
因為 Transformer 在 inference 時,確實不用考慮這個問題,因為這時候是使用 auto-regressive 的方式來生成 sequence,也就是說上一個時間點 model 的輸出會作為這個時間點的輸入。然而大家發現這種方法常常導致生成模型難以收斂,於是有人 teacher-forcing 的做法,就是直接把上一步的 ground truth 當成當前的輸入,用這種方式來矯正模型的預測,也極大的加快模型收斂的速度。


上一篇
【Day 06】只想越跳越瘋,把 self-attention 甩掉!
下一篇
【Day 08】芝麻街與進擊的巨人
系列文
30天AI馴獸師之生存日記15
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言