25 Recurrent model 之死

2019 iT 邦幫忙鐵人賽

DAY 24

AI & Data

機器學習模型圖書館：從傳統模型到深度學習系列第 25 篇

2019鐵人賽 deep learning 深度學習 rnn

杜岳華

2018-10-25 23:21:38

5206 瀏覽

分享至

當大家正在開心的用著 RNN 跟 LSTM 等等模型之時，就有人跳出來了。

不要再用 RNN 為基礎的模型了！！

就是這篇 The fall of RNN / LSTM

為什麼呢？

基本上裏面提到 vanishing gradient 的問題一直沒有解決以外，還有沒有辦法善用硬體的侷限在。

像這種循序型的模型，模型天生無法平行化運算，所以 GPU 就無用武之地，只能靠 CPU 慢慢跑。

那有什麼解決辦法呢？

Self-attention model

Attention Is All You Need 這篇文章提出了 Transformer 這個模型，基本上這個模型使用了 self-attention 的機制。

要講這個之前我們要先聊聊 attention model。在 attention model 之前，sequence-to-sequence model 做出了重大的突破。一個具有彈性，可以任意組合的模型誕生了，管你是要生成句子還是怎麼樣。原本是只有 RNN 一個單元一個單元慢慢去對映 X 到 Y，sequence-to-sequence model 將這樣的對應關係解耦，由一個 encoder 負責將 X 的資訊萃取出來，再經由 decoder 將資訊轉換成 Y 輸出。

但是 LSTM 還是沒辦法記憶夠長的，後來 attention model 就誕生了。乾脆就將 encoder 所萃取到的資訊紀錄下來，變成一個，然後再丟到 decoder 去將資訊還原成目標語言，就可以完成機器翻譯了。

但是這種方式還是不脫 recurrent model，那就乾脆做成 self-attention 的機制，也就是這邊的 Transformer，完全摒棄了 recurrent 的限制。