自然語言處理的發展：從 RNN、LSTM 到 Transformer

17th鐵人賽

xuer

2025-09-18 11:50:42

162 瀏覽

分享至

自然語言處理（Natural Language Processing, NLP）是生成式 AI 崛起的核心基礎之一。過去，電腦在處理語言時，往往難以理解語境與長期依賴（long-term dependency），直到深度學習技術出現，才逐步突破瓶頸。

RNN（Recurrent Neural Network）

在 1990 年代，循環神經網路（RNN） 成為處理序列資料的重要方法。它的設計理念是透過「隱藏狀態」記憶前一步的輸入，從而保留序列上下文資訊。RNN 被廣泛應用於語音辨識、機器翻譯等任務。
限制：RNN 在處理長序列時，會遭遇梯度消失或梯度爆炸的問題，使得模型難以捕捉長期依賴關係。

LSTM（Long Short-Term Memory）

為了解決 RNN 的限制，Hochreiter 與 Schmidhuber 在 1997 年提出 長短期記憶（LSTM）。LSTM 透過「記憶單元」與「門控機制」來選擇性地保留或忘記資訊，極大改善了序列建模的效果。
應用範例：Google 翻譯早期版本便大量依賴 LSTM。
限制：雖然 LSTM 可以處理較長的序列，但計算效率不佳，難以在大規模語料上快速訓練。