Day 19 - Web仔從數學角度學習遞迴式神經網路長短期記憶模型 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2024 iThome 鐵人賽

DAY 19

0

AI/ ML & Data

Web仔從數學角度學習 AI/ ML & Data系列第 19 篇

Day 19 - Web仔從數學角度學習遞迴式神經網路長短期記憶模型

16th鐵人賽

團隊真素有料

2024-10-01 20:49:11

136 瀏覽

分享至

註：本文同步更新在Notion!（數學公式會比較好閱讀）

遞迴式神經網路 (RNN) 之長短期記憶模型 (LSTM)在處理序列數據時，遞迴式神經網路 (RNN) 經常因為梯度消失問題而無法有效地學習長期依賴性。為了解決這個問題，Hochreiter 和 Schmidhuber 於 1997 年提出了長短期記憶模型（LSTM），它是一種特殊的遞迴式神經網路架構，設計用來克服 RNN 的缺陷，特別是在長序列學習上。

1. LSTM 的結構

LSTM 通過引入記憶單元 (memory cell) 和一組門控機制，來控制信息的存取和更新，從而有效保持長期依賴的信息。這種設計的核心是單元狀態（cell state），一條類似輸水管的結構，允許信息在時間步之間幾乎無修改地傳遞。

LSTM 的結構由三個門控組成：

遺忘門（forget gate）：決定過去的信息是否應該被保留
輸入門（input gate）：控制當前信息如何影響記憶單元
輸出門（output gate）：決定記憶單元的哪一部分會輸出作為當前時間步的隱藏狀態

每個門控機制都有其對應的權重和偏置：

2. LSTM 記憶單元的更新

LSTM 的記憶單元會根據遺忘門和輸入門的輸出來進行更新：

3. LSTM 的優勢

LSTM 在序列學習中的最大優勢在於它能夠有效記憶長期依賴信息，這主要得益於記憶單元的設計。傳統 RNN 因為梯度消失問題，在長序列學習上表現不佳，而 LSTM 通過記憶單元的長期保留能力，成功避免了這一問題。

LSTM 的記憶單元讓它可以處理多樣的序列學習任務：

語言模型：根據上下文預測下一個詞
機器翻譯：將輸入語句翻譯成另一種語言
語音識別：在長語音序列中識別特徵
時間序列預測：預測股市、天氣等隨時間變化的數據

4. LSTM 的數學特性

LSTM 的設計可以視為對梯度問題的一種數學解決方案。通過引入門控機制，LSTM 使得梯度可以更穩定地反向傳播，這在反向傳播中有效防止梯度的過度衰減。由於 LSTM 的記憶單元更新公式中涉及的乘法操作，模型可以選擇將信息保留多長時間，從而克服長期依賴問題。

反向傳播的數學推導仍然基於通過時間的反向傳播算法 (Backpropagation Through Time, BPTT)，但由於 LSTM 的門控結構，梯度消失問題得到顯著改善。

結論

LSTM 是遞迴式神經網路的一個重要突破，它通過記憶單元和門控機制成功解決了梯度消失問題，特別適合處理長期依賴性的序列數據。隨著深度學習應用的普及，LSTM 成為語音識別、自然語言處理、時間序列預測等領域的基石。

恭喜各位明天放假萬歲！！！✧*｡٩(ˊᗜˋ*)و✧*｡

Day 18 - Web仔從數學角度學習遞迴式神經網路 Elman神經網路理論模型

Day 20 - Web仔從數學角度學習遞迴式神經網路 peephole長短期記憶模型

系列文

Web仔從數學角度學習 AI/ ML & Data 共 30 篇

目錄

RSS系列文訂閱系列文

2 人訂閱

完整目錄

直播研討會

{{ item.subject }}

{{ item.channelVendor }} {{ item.webinarstarted }} |

{{ formatDate(item.duration) }}

直播中

尚未有邦友留言

立即登入留言

參賽組數

1064 組

團體組數

40 組

累計文章數

22192 篇

完賽人數

602 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# windows server linux css react vue.js

IT邦幫忙