iT邦幫忙

2021 iThome 鐵人賽

DAY 18
0
自我挑戰組

30天初步了解自然語言處理-自學筆記系列 第 18

[Day18] NLP會用到的模型(二)-GRU

  • 分享至 

  • xImage
  •  

一. LSTM的問題

LSTM雖然非常強大,但LSTM也是有一個問題,就是計算時間較久導致執行速度較慢,畢竟它需要三個門都計算過~時間就是金錢,所以就產生了GRU(Gated Recurrent Unit),加速計算時間以及減少計算空間。

二. GRU

GRU全名為Gated Recurrent Unit,中文不太會翻譯XD,整體架構上它比LSTM少了一個門,讓他的運算時間少了許多,架構如下,圖片一樣來自於Coupy的'NLP 深度學習馬拉松':
https://ithelp.ithome.com.tw/upload/images/20210918/20140426r7xhpEduuD.png

這邊可以想成GRU將LSTM的三個門變成了一個'重設門'與一個'更新門',下面稍微說明一下這兩個門的目的:

  • 更新門(Update Gate): 決定保留哪些上一個GRU單元的資訊多寡,可以想成LSTM的輸入門與輸出門的概念,有點像更新現在的狀態~
  • 重設門(Reset Gate): 決定要丟棄多少先前資訊~這個門跟遺忘門所做的事很像,經過一個sigmoid function來決定要捨棄多少先前的資訊。

然後最重要的是GRU的輸出沒有C(cell state)只有h(hidden state)~

但其實GRU與LSTM效果沒差很多~就是差在計算時間與空間,所以之前也看到有人在網路上說過類似: 通常可以利用LSTM作為最初的選擇,但當你有非常龐大的訓練資料時,可以考慮使用GRU。

GRU大概說明到這~


明天預計帶過一些這些model的應用情境,然後會利用LSTM實作POS任務


上一篇
[Day17] NLP會用到的模型(二)-LSTM
下一篇
[Day19] NLP會用到的模型(三)-RNN應用
系列文
30天初步了解自然語言處理-自學筆記30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言