2017 年,Google 團隊發表的《Attention Is All You Need》論文提出了革命性的 Transformer 模型架構。這篇論文之所以被譽為里程碑,是因為 Transformer 完全拋棄了以往自然語言處理常用的循環神經網路(RNN)和卷積神經網路(CNN),轉而全盤採用注意力機制來建構模型。短短幾年內,Transformer 成為各種 AI 模型(尤其是大型語言模型)的核心基礎,使得 NLP 領域在機器翻譯、問答、文本生成等任務上取得了長足進展。
注意力機制取代傳統模型
傳統的 RNN 因為序列依賴,無法有效並行運算,訓練長序列時也容易遺失前面訊息。Transformer 引入的自注意力機制(Self-Attention)則徹底改變了這一點。透過注意力計算,模型可以在處理一個詞彙時,同時參考整個輸入序列中其他詞彙,捕捉長程依賴關係。具體而言,Transformer 使用查詢(Q)、鍵(K)、值(V)向量計算注意力分數,讓每個詞彙都能根據與其他詞的相關性動態調整對上下文的關注程度。由於不再依賴遞歸結構,Transformer 架構能充分利用 GPU 進行並行計算,大幅縮短訓練時間,同時支援更大規模的模型。
多頭注意力與表達力
Transformer 中另一個關鍵創新是多頭注意力(Multi-Head Attention)。簡而言之,模型並非只計算一組注意力,而是平行計算多組注意力頭,每一頭都有自己的 Q、K、V 投影。這種設計讓模型可以從不同角度學習詞彙之間的關聯:例如一個注意力頭也許專注於句法結構,另一個頭關注語義關係。多頭注意力的結果會被拼接後再通過線性變換,融合成最終的表示。藉由多頭機制,Transformer 提升了模型的表達能力和魯棒性,能同時捕捉語言中多種層次的特徵。
結語:
Transformer 架構的核心在於「注意力就是一切」。它以自注意力機制取代傳統序列模型,不僅加速了訓練,還提高了模型對長距離依賴的捕捉能力。透過多頭注意力,Transformer 能從多方面理解語言結構。這些突破使得 Transformer 成為現代 NLP 模型的基石,從 BERT 到 GPT 系列都建立在這個架構之上。在後續文章中,我們將更深入探討 Transformer 的內部機制,包括自注意力的細節和位置編碼等關鍵要素。