[Day 17] LSTM：突破RNN限制的長短期記憶網路

16th鐵人賽 lstm 機器學習深度學習人工智慧

arbin

團隊NUTC imac

2024-09-25 20:12:23

380 瀏覽

分享至

LSTM 長短期記憶網路

什麼是LSTM？

LSTM（Long Short-Term Memory）是一種特殊的循環神經網路（RNN），也就是昨天提到的RNN的變形，主要用來解決傳統RNN在處理長期依賴問題時遇到的梯度消失問題。

而LSTM最早由Hochreiter和Schmidhuber在1997年提出，並在之後的深度學習應用中獲得廣泛使用，特別是在自然語言處理、時間序列預測、語音識別等任務中。

為什麼需要LSTM?

前面說到，傳統的 RNN 模型在反向傳播中會面臨一個很嚴重的問題梯度消失。隨著序列長度的增加，反向傳播過程中，梯度會逐漸消失，導致模型無法有效更新早期time step的權重，因此忽略長期依賴的關鍵訊息。
所以這時候就需要LSTM，LSTM他的解決方法就是引入了「記憶單元」（Cell State），這是一個可以長時間保留訊息的機制，並且透過Gating Mechanism（如遺忘門、輸入門和輸出門），來選擇性的更新和保留訊息，有效的避免梯度消失和梯度爆炸問題。

Gating Mechanism是什麼?

剛剛說到LSTM透過Gating Mechanism來選擇性的更新和保留訊息，有效的避免梯度消失和梯度爆炸問題，那這個厲害的Gating Mechanism到底是甚麼呢？
Gating Mechanism 是 LSTM（Long Short-Term Memory）和其他類型的循環神經網路（如 GRU）的核心結構，主要用於控制訊息在神經網路中的流動。
首先我們先來看看LSTM的記憶體單元的內部結構：

在這張圖片中，可以注意到Gating Mechanism由三個主要門組成：

遺忘門（Forget Gate）：
- 決定應該「遺忘」多少來自上一個時間步驟的訊息。
- 公式：
  - 是遺忘門的輸出，範圍在 0 到 1 之間
  - 是上一時間步驟的隱藏狀態
  - 是當前time setp的輸入
  - 和是遺忘門的權重和偏置
- 所以當遺忘門的輸出接近 1 時，網路會保留大部分來自前一個時間步驟的記憶；當輸出接近 0 時，網路則會「遺忘」這些信息。
輸入門（Input Gate）：
- 決定應該將多少當前時間步的新信息存入記憶單元中。
- - 是輸入門的輸出
  - 這個門會與下面的候選記憶結合，用來更新記憶單元的內容。
- 候選記憶單元
  - 候選記憶是基於當前輸入和之前隱藏狀態的非線性變換，表示新的潛在記憶內容
輸出門（Output Gate）：
- 決定應該將多少來自記憶單元的資訊作為當前時間步的隱藏狀態輸出。
- 公式：
  - 是輸出門的激活值（範圍在 0 和 1 之間）
  - 是輸出門的權重矩陣
  - 是將隱藏狀態和當前輸入x_t串接起來
  - 是輸出門的偏移項
    
    偏移項（Bias Term）是神經網路中的一個參數，用來調整輸入到神經元的加權和（weighted sum）
    作用是讓模型的預測不會被強迫通過原點（即在輸入為零時，輸出也必須為零），增加模型的表現力。
  - σ 是 sigmoid 函數，將結果限制在 0 到 1 之間，表示保留記憶的比例。
- 最後的隱藏狀態則由當前記憶單元內容通過輸出門的控制來確定：
  - - tanh(Ct) 將記憶單元狀態通過tanh函數縮放，使得輸出的值範圍在 -1 和 1 之間。