Day 22 - RNN（循環／遞歸神經網路） - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2025 iThome 鐵人賽

DAY 22

AI & Data

Day 22 - RNN（循環／遞歸神經網路）

17th鐵人賽

169 瀏覽

在各種 Deep Learning Models 中，RNN（Recurrent Neural Network）是一種特別設計來處理序列資料 (sequential data) 的模型。

與 CNN（Convolutional Neural Network）或一般其他的神經網路不同，RNN 能夠記住 時間上的資訊 ，因此特別適合應用於文字、語音、時間序列等任務。

以下就來看看 RNN 究竟是怎麼樣的一個模型囉～

RNN（Recurrent Neural Network），是運用基於「時間」的循環機制
跟一般神經網路的不同之處在於，他們的「記憶（memory）」不同
➔ RNN不會把輸入（input）跟輸出（output）當作獨立分開的事件，反之，它會利用前面的各個輸入來去影響現在的輸入跟輸出
RNN可以被視為於同一個網路裡面，進行不同時間段的多次循環，每個神經元單位（neural unit）把更新得出的結果傳遞給下一個時間段

RNN 是利用 forward propagation 跟 backpropagation through time(BPTT) 來去找到gradients，跟傳統的 backpropagation 基本的運作方式很像，但有差異
BPTT 會把 error 加總起來，因為如同上面所說，整個網路有共同的參數，但是像 feedforward 的網路裡，參數是不同的，因此不會把error相加

Bidirectional recurrent neural networks (BRRNs)
- 相對於單一方向的 RNN ， BRRNs 可以利用雙向的記憶，也就是可以運用未來的資料來去影響目前的狀態，透過未來跟過去的資料，提升模型預測字的能力
Long short-term memory (LSTM)
- LSTM 可以去解決字串內距離較遠的問題，因為有些句子內字雖然距離遠，但是其實關聯性很高，因此LSTM會去讓模型能夠讓每層都去多記住有用的資訊
- LSTM 在 hidden layer 中有「cell state」，該 cell 中有 gates 來去過濾資訊：input, output, forget gate。例如，如果一個字，像是「he」在前面出現很多次，後面的layer可能就會把它遺忘掉
Gated recurrent units (GNUs)
- GNU 跟 LSTM 很像，但是他不用 cell state ，而是用 hidden state ，並且不是用 3 個 gates ，而是 2 個 gates ：reset、update gates，不過也是在決定該留什麼、多少資訊
- GNU 相對於 LSTM ，計算起來可能會比較有效率，需要的參數也比較少，適用於實時或是資源有限的應用
Encoder-decoder RNN
- seq2seq 的模型，適用於翻譯