Day 21 - Web仔從數學角度學習遞迴式神經網路 GRU模型 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2024 iThome 鐵人賽

DAY 21

AI/ ML & Data

Web仔從數學角度學習 AI/ ML & Data系列第 21 篇

Day 21 - Web仔從數學角度學習遞迴式神經網路 GRU模型

16th鐵人賽

54mulin

團隊真素有料

2024-10-03 16:57:29

1147 瀏覽

分享至

註：本文同步更新在Notion!（數學公式會比較好閱讀）

遞迴式神經網路 (RNN) 之 GRU 模型

在深度學習的領域中，長短期記憶網路 (LSTM) 因為能夠解決長期依賴問題而廣為使用，但其複雜的結構在某些應用中導致了計算成本過高。為了簡化模型結構並提高計算效率，門控循環單元 (GRU, Gated Recurrent Unit) 應運而生。GRU 是 LSTM 的簡化版本，去除了部分門控機制，但仍然能有效解決序列學習中的長期依賴問題。

1. GRU 的結構

GRU 將 LSTM 中的三個門（輸入門、遺忘門和輸出門）合併成兩個門控機制，分別是更新門 (update gate) 和重置門 (reset gate)。這使得 GRU 模型更簡潔且具有更少的參數，但仍能有效控制信息的流動。

GRU 的數學公式：

更新門 (Update Gate)：
重置門 (Reset Gate)：
新的候選隱藏狀態 (Candidate Hidden State)：
最終隱藏狀態更新：

2. GRU 與 LSTM 的比較

GRU 的主要特點是去掉了 LSTM 中的記憶單元，並且合併了部分門控機制。具體差異如下：

結構簡單：GRU 沒有 LSTM 的輸出門，並且將 LSTM 的遺忘門和輸入門合併為一個更新門。這簡化了計算，減少了參數數量。
記憶單元：LSTM 具有獨立的記憶單元，而 GRU 則將記憶和隱藏狀態合二為一。這使得 GRU 更輕量化，但在一些長期依賴問題上可能不如 LSTM 表現出色。
計算效率：由於 GRU 的結構較為簡單，在相同的訓練條件下，GRU 通常比 LSTM 訓練更快，且在較短的序列學習任務中可以獲得相似的效果。

3. GRU 的數學推導與梯度更新

GRU 的數學推導基於反向傳播通過時間 (Backpropagation Through Time, BPTT)，和 LSTM 一樣，主要目的是通過更新權重來最小化誤差函數。在這裡，我們關注的是梯度的傳播過程。由於 GRU 的結構更為簡單，其梯度計算相對 LSTM 更為直接，並且在實踐中，GRU 能夠更有效地避免梯度消失問題。

4. GRU 的應用場景

GRU 通常用於那些要求模型具有較高效能並能在保持準確率的同時降低計算複雜度的任務中。它特別適合於：

自然語言處理 (NLP)：在機器翻譯、文本生成和情感分析等任務中，GRU 經常被用於替代 LSTM，因為它在較短的序列中表現良好，並且能夠顯著降低訓練時間。
語音識別：GRU 也被廣泛應用於語音識別系統中，特別是在需要對語音片段進行即時處理的場景下，GRU 的輕量結構帶來了顯著的效能提升。
時間序列預測：在金融市場分析和其他需要分析時間序列的任務中，GRU 通常能提供和 LSTM 相似的效果，但訓練速度更快。