Day 20 - Web仔從數學角度學習遞迴式神經網路 peephole長短期記憶模型 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2024 iThome 鐵人賽

DAY 20

AI/ ML & Data

Web仔從數學角度學習 AI/ ML & Data系列第 20 篇

Day 20 - Web仔從數學角度學習遞迴式神經網路 peephole長短期記憶模型

16th鐵人賽

54mulin

團隊真素有料

2024-10-02 14:07:36

144 瀏覽

分享至

註：本文同步更新在Notion!（數學公式會比較好閱讀）

在傳統的 LSTM 結構中，記憶單元狀態是一個核心概念，它通過不同的門控機制控制信息的流動。然而，LSTM 的標準設計中，這些門控機制並不能直接查看記憶單元的當前狀態，這使得模型可能在某些情況下無法有效利用單元中的信息。為了解決這個問題，peephole 長短期記憶模型（Peephole LSTM）應運而生，通過在門控中引入記憶單元狀態的「偷窺孔」（peepholes），使得門控機制可以參考當前記憶單元的狀態。

1. Peephole LSTM 的結構

Peephole LSTM 是在傳統 LSTM 的基礎上改進而來

2. Peephole LSTM 的改進

在傳統 LSTM 中，門控機制無法直接獲取記憶單元的當前狀態，這可能導致模型在某些情境下無法靈活調整信息的存取。而 Peephole LSTM 的創新點就在於，通過窺視記憶單元的狀態，門控機制可以更準確地決定信息的保留、輸入和輸出。

例如：

遺忘門可以更好地判斷是否應該保留過去的信息，因為它可以直接參考當前的記憶單元狀態。
輸入門可以根據當前記憶單元的狀態來決定要更新多少新信息。
輸出門可以更準確地選擇從記憶單元中輸出哪部分信息。

這種設計讓模型能更靈活地處理長期依賴，尤其是對於那些需要更多細緻控制的序列學習任務，Peephole LSTM 顯示出更強的適應能力。

3. Peephole LSTM 的數學推導

Peephole LSTM 的數學推導仍然基於通過時間的反向傳播算法 (Backpropagation Through Time, BPTT)，其推導過程與傳統 LSTM 相似，只是在計算遺忘門、輸入門和輸出門時，會額外引入當前的記憶單元狀態 $C_t$。這使得梯度的傳播能夠更加準確，特別是在長期依賴的序列學習中，可以有效防止梯度消失和梯度爆炸問題。