iT邦幫忙

2024 iThome 鐵人賽

DAY 19
0
AI/ ML & Data

Web仔從數學角度學習 AI/ ML & Data系列 第 19

Day 19 - Web仔從數學角度學習 遞迴式神經網路 長短期記憶模型

  • 分享至 

  • xImage
  •  

註:本文同步更新在Notion!(數學公式會比較好閱讀)

遞迴式神經網路 (RNN) 之長短期記憶模型 (LSTM)在處理序列數據時,遞迴式神經網路 (RNN) 經常因為梯度消失問題而無法有效地學習長期依賴性。為了解決這個問題,Hochreiter 和 Schmidhuber 於 1997 年提出了長短期記憶模型(LSTM),它是一種特殊的遞迴式神經網路架構,設計用來克服 RNN 的缺陷,特別是在長序列學習上。

1. LSTM 的結構

LSTM 通過引入記憶單元 (memory cell) 和一組門控機制,來控制信息的存取和更新,從而有效保持長期依賴的信息。這種設計的核心是單元狀態(cell state),一條類似輸水管的結構,允許信息在時間步之間幾乎無修改地傳遞。

LSTM 的結構由三個門控組成:

  • 遺忘門(forget gate):決定過去的信息是否應該被保留
  • 輸入門(input gate):控制當前信息如何影響記憶單元
  • 輸出門(output gate):決定記憶單元的哪一部分會輸出作為當前時間步的隱藏狀態

每個門控機制都有其對應的權重和偏置:
https://ithelp.ithome.com.tw/upload/images/20241001/20168898ei5OpZ1YFF.png

2. LSTM 記憶單元的更新

LSTM 的記憶單元會根據遺忘門和輸入門的輸出來進行更新:
https://ithelp.ithome.com.tw/upload/images/20241001/20168898ac0FLVKVQU.png

3. LSTM 的優勢

LSTM 在序列學習中的最大優勢在於它能夠有效記憶長期依賴信息,這主要得益於記憶單元的設計。傳統 RNN 因為梯度消失問題,在長序列學習上表現不佳,而 LSTM 通過記憶單元的長期保留能力,成功避免了這一問題。

LSTM 的記憶單元讓它可以處理多樣的序列學習任務:

  • 語言模型:根據上下文預測下一個詞
  • 機器翻譯:將輸入語句翻譯成另一種語言
  • 語音識別:在長語音序列中識別特徵
  • 時間序列預測:預測股市、天氣等隨時間變化的數據

4. LSTM 的數學特性

LSTM 的設計可以視為對梯度問題的一種數學解決方案。通過引入門控機制,LSTM 使得梯度可以更穩定地反向傳播,這在反向傳播中有效防止梯度的過度衰減。由於 LSTM 的記憶單元更新公式中涉及的乘法操作,模型可以選擇將信息保留多長時間,從而克服長期依賴問題。

反向傳播的數學推導仍然基於通過時間的反向傳播算法 (Backpropagation Through Time, BPTT),但由於 LSTM 的門控結構,梯度消失問題得到顯著改善。

結論

LSTM 是遞迴式神經網路的一個重要突破,它通過記憶單元和門控機制成功解決了梯度消失問題,特別適合處理長期依賴性的序列數據。隨著深度學習應用的普及,LSTM 成為語音識別、自然語言處理、時間序列預測等領域的基石。

恭喜各位明天放假 萬歲!!!✧*。٩(ˊᗜˋ*)و✧*。
https://ithelp.ithome.com.tw/upload/images/20241001/20168898Uf6Eyvzkmt.png


上一篇
Day 18 - Web仔從數學角度學習 遞迴式神經網路 Elman神經網路理論模型
下一篇
Day 20 - Web仔從數學角度學習 遞迴式神經網路 peephole長短期記憶模型
系列文
Web仔從數學角度學習 AI/ ML & Data30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言