Day 19. 深度學習模型 - RNN（二） - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2022 iThome 鐵人賽

DAY 20

AI & Data

OH～ AI 原來如此，互助就此開始！系列第 20 篇

Day 19. 深度學習模型 - RNN（二）

14th鐵人賽

henry_chen

2022-10-04 11:22:35

4399 瀏覽

分享至

昨天講解完 RNN 的輸入資料是怎麼來的，今天要來介紹 RNN 基本架構和 RNN 具體可以做些什麼。

RNN 之所以可以處理時間序列資料，在於會把過去（前一個單詞）的特徵也傳遞給下一個。一個傳一個帶有循環的網路，讓資料持續存在（有記憶性），所以叫循環神經網路。

RNN 的基本架構

比方說 "the students opened their" （學生們打開他們的...）預測接下來會出現的單詞（書或筆電）。RNN 會將句子的每個單詞轉成詞向量當輸入，將隱藏層狀態傳給下一個詞。

一般神經網路	RNN

輸入必須固定（以文章來說不太實際）	輸入可隨序列增加，參數是層層傳遞不會增加（很好）

ーー出處：CS224n: Natural Language Processing with Deep
Learning

實際上 RNN 的隱藏層內部長這樣：

隱藏層 n	隱藏層 n+1

上個隱藏層狀態+本層輸入=新的隱藏層狀態	新的隱藏層狀態傳給下一層

以自然語言處理為例，句子照著單詞順序分成好幾個時間步驟（timestep），每個時間步驟將該單詞轉為詞向量（one hot 向量或詞嵌入向量）作為輸入和上一層的結果結合後傳給下一層。激勵函數則是使用 tanh。

ーー　上述動畫出處均為：Illustrated Guide to LSTM’s and GRU’s

用數學式表示的話：
$h_t = RNN ( h_{t-1} , x_t ) = tanh ( h_{t-1} W_h + b_h + x_t W_x + b_x )$
本層狀態=RNN（上層狀態，本層輸入）=tanh（上層狀態的權重和偏差+本層輸入的權重和偏差）

學習（參數調整）則是一樣做反向傳播，只是因為是順著時間軸反著做，所以叫隨著時間反向傳播（BPTT，Backpropagation Through Time）。

ーーBPTT，出處：CS224n: Natural Language Processing with Deep
Learning

RNN 可以做什麼

一般的神經網路以及CNN，輸入和輸出的大小是固定的，而 RNN 的優勢在於可以透過序列做一對多，多對一，或者是多對多的應用，

ーー 出處：The Unreasonable Effectiveness of Recurrent Neural Networks

一對一
例：圖像分類。
固定大小的輸入到固定大小的輸出。也就是一般的神經網路及 CNN。
一對多
例：圖像摘要。
透過一張圖像轉換成多個單詞組成的句子。

ーー 一個年輕男孩在打籃球。出處：keras-image-captioning
多對一
例：情感分析。
透過一段文字判斷是正面或負面的情緒。

例：文本分類
透過一段文字判斷郵件是垃圾郵件或一般郵件。
多對多
例：機器翻譯。
透過一段英文句子轉成中文句子。
"Roger Federer Retired From Tennis"→「羅傑·費德勒從網球退役」
同步多對多
例：影片分類。
透過一段影片，分辨當下的每個時間點是在做伏地挺身，伸展還是瑜珈等動作。

ーー 出處：TenserFlow - 影片分類

但是這個基本的 RNN 也有幾個需要解決的問題：

梯度消失
隨著時間拉長，反向傳遞越往前面梯度會越來越小，越前面的時間步驟（越早的資料）無法作有效的學習修正，也就是說 RNN 只能短期記憶，太久遠之前的資料無法記住。
輸入權重衝突（input weight conflict）
一般的神經網路中，不重要的輸入，權重會變小，重要的輸入，權重會變大。但是 RNN 的場合，這個輸入現在不重要，但是將來很重要，同時有著權重應該要變小還是要變大的矛盾存在（輸入權重衝突）。而相對的，這個輸出現在不重要，但是將來很重要這種矛盾叫做輸出權重衝突（output weight conflict）

一般神經網路使用激勵函數 ReLU 來取代 sigmoid 來改善梯度消失，而 RNN 不替換激勵函數而是使用了改善後的模型 LSTM 或 GRU 同時解決上述兩個問題。

它們共通的概念是，忘記不重要的資料，只保留重要訊息來做預測。
比如說下面的文字，只記憶重要的評語「令人讚嘆！」（Amazing！），「肯定再次購買」（buying again），進而推論這是一個好產品。

ーー　出處：Illustrated Guide to LSTM’s and GRU’s: A step by step explanation

長短期記憶（LSTM，Long Short-Term Memory）

RNN	LSTM

LSTM 有以下兩個構成：

細胞狀態（Cell state）
一條新的長期記憶線，可以想像成一條傳送帶，將相關訊息當成包裹搬送到其他或近或遠的地方方便取用。

解決只能短期記憶的問題。步驟如下：
1. 乘上遺忘門的結果
  保留細胞狀態或捨棄。
2. 加上輸入門的結果
  更新細胞狀態，決定是否將候選細胞（cell candidate）加到長期記憶。
3. 傳給下一層的細胞狀態以及輸出門
門（Gate）
- 遺忘門（Forget gate）
  決定資料保留或丟棄。
  
  上層輸出加上本層輸入透過 sigmoid 激勵函數將值保持在0～1，傳遞給細胞狀態，接近0代表可忘記，接近1代表要保留。
- 輸入門（Input gate）
  更新細胞狀態。
  
  上層輸出加上本層輸入透過 tanh 和 sigmoid 做相乘，tanh（-1～1）做網路調節，sigmoid（0～1）決定那些值要保留。因為可以在必要的時機將必要的輸入資料作保留或捨棄，可改善輸入權重衝突。
- 輸出門（Output gate）：
  決定隱藏層輸出。
  
  ーー　上述圖片出處均為：Understanding-LSTM
  上層輸出加上本層輸入的 sigmoid 結果乘上新的細胞狀態的 tanh 結果決定隱藏層狀態攜帶哪些訊息到下一層。同樣地可改善輸出權重衝突。