[Day 16] 循環神經網路 (RNN) 的應用與原理

2024 iThome 鐵人賽

DAY 16

AI/ ML & Data

16th鐵人賽人工智慧機器學習深度學習循環神經網路

1202 瀏覽

昨天提到了一個被廣泛應用的模型架構 CNN ，CNN因為他優異的表現被廣泛應用於圖像處理、物體檢測與影像分類等任務。但是當我們處理帶有時間依賴性或順序關係的數據時，CNN的問題就顯現出來了。
在這些情況下，RNN 提供了一種更合適的解決方法，所以今天我們就會來了解RNN是甚麼囉！！

循環神經網路（Recurrent Neural Network, RNN），之所以被叫做循環，是因為他存在這個特性(廢話)，以一個例子來說，當我們在讀文章的時候，我們並不會每讀一個字就完全忘記前面的內容，我們應該會記住之前讀過的字或是句子，然後根據這些已知資訊來理解接下來的內容。

但是傳統的神經網路並不會這樣，而RNN卻是可以做到的。

所以RNN是一種用於處理序列數據的神經網路結構，適合處理與時間或順序相關的問題。與傳統前饋神經網路（如多層感知器，MLP）不同，RNN具有記憶能力，能夠利用先前輸入的信息來影響後續的輸出。

接續上面的閱讀文章來說每次讀一個字（輸入），網路會根據已經讀過的內容（之前的隱藏狀態）來理解當前字的意義，之後，RNN 會把當前字的資訊和之前的資訊一起「記住」，並傳遞給下一個Time Step（下一個字）。

Time Step 是指在處理時間序列或序列數據時，每一個離散的時間點或輸入步驟。這個概念在像 循環神經網路（RNN） 這樣的模型中非常重要，因為它們通常是逐步處理數據的，並根據過去的時間點來做出當前的決策。

為什麼叫做「循環」？
- 因為在每個Time Step，網路都會把它現在的狀態（記憶）傳回到自己，然後再用這個更新過的狀態來處理下一個輸入。這個過程就像是不斷地重複自己，處理一個接著一個的輸入，形成了循環。
- 具體來說，這裡的「循環」是指：當前的輸入會結合之前的隱藏狀態來產生一個新的隱藏狀態。
- 這個新的隱藏狀態會再被用來處理下一個輸入，並且每次處理輸入都會重複這個過程。
一個簡單的流程來幫助我們理解：
- 首先我們看到「貓」這個詞（當前輸入），我們的腦袋會記住「貓」這個資訊（隱藏狀態）。
- 下一個詞是「跑」（下一個輸入），我們會結合之前「貓」的資訊來理解「貓在跑」。
- 再下一個詞是「得很快」，你會根據前面的資訊理解「貓跑得很快」。
  RNN 也是類似的處理方式，這樣的記憶能力和信息處理方式就是它「循環」的原因。

現在我們來看看這張圖片。

聽起來RNN好像很厲害，在處理時間序列資料和時間依賴性問題上有很大的優勢，但其實他也有很明顯的缺點，這些缺點限制了他在某些應用中的表現。

梯度消失與梯度爆炸
- 梯度消失：當 RNN 處理長序列數據時，隨著time step的增加，反向傳播的梯度會逐漸變小，最終導致模型無法有效學習序列中遠端訊息的影響。這意味著 RNN 對於較長的依賴關係（例如，句子開頭的資料對句子結尾的影響）無法捕捉。
- 梯度爆炸：在一些情況下，梯度可能變得非常大，導致網路的參數更新異常，使得網路不穩定。
- 這兩個問題使得 RNN 在處理長序列資料時，訓練變得困難，並且模型的學習效果不好。
難以捕捉長期依賴關係
- RNN 的記憶範圍有限，隨著time step的增加，遠端的歷史訊息對當前輸出的影響會越來越小。因此，RNN 難以處理那些依賴於長期上下文的任務。例如，在一篇長文章中，前幾段的信息可能對最後的總結非常重要，但 RNN 很難有效捕捉這種長期依賴。

而這個問題可以透過RNN的變形來解決，也就是LSTM來解決，那甚麼是LSTM，我們明天就會一起來探討LSTM囉。