Transformer 的核心技術

2025 iThome 鐵人賽

DAY 3

生成式 AI

AI創世紀：生成式智慧的無限想像系列第 3 篇

17th鐵人賽

tingaaan

2025-09-17 21:20:08

86 瀏覽

分享至

簡介：Transformer 是一種神經網路架構，透過自注意力機制來處理序列資料，例如自然語言和圖像。它能夠同時處理所有輸入資料，實現高效的平行計算，顯著縮短訓練時間，並能夠理解序列元件之間的長距離依賴關係。使用一套不斷發展，稱為注意力（attention）或自我注意力（self-attention）的數學技術，它可偵測一個系列中以微妙方式相互影響和相互依賴的資料元素，甚至是模糊的資料元素。

Transformer的關鍵特點

注意力機制(Attention Mechanism)：這是Transformer 最核心的創新，它讓模型能夠為輸入序列中的不同部分分配不同的重要性權重，從而更好地捕捉語境和依賴關係。
平行計算(Parallel Computing)：與傳統的循環神經網路（RNN）不同，Transformer 可以一次性處理所有輸入資料，這允許大量的平行計算，大大減少了訓練時間。
長距離依賴處理(Long-Range Dependencies)：透過注意力機制，Transformer 可以直接建立序列中任意位置之間的關聯，這使得它能夠有效地處理長距離的依賴關係，這是傳統RNN 模型難以解決的難題。

Transformer 的核心結構

Transformer 架構有兩個主要部分：編碼器（Encoder）和解碼器（Decoder）。
不過現代的大型語言模型（GPT 系列）大多只用 Decoder。

(1) 輸入處理
• 一句話會先被切成詞或子詞（tokens）。
• 每個 token 轉換成向量（Embedding）。
• 再加上位置編碼（Positional Encoding），告訴模型「順序」。

⸻

(2) Self-Attention（自注意力機制）

這是 Transformer 的核心。

對每個詞向量，模型會計算三種表示：
• Query（Q）：我要關注什麼？
• Key（K）：我能提供什麼資訊？
• Value（V）：我的實際內容。

計算方式（簡單理解）：
1. 拿某個詞的 Query 去跟其他詞的 Key 做比對 → 得到關聯度。
2. 用這些關聯度去加權平均 Value。
3. 最後得到新的表示，這個表示已經包含了「和其他詞的關係」。

➡️ 好處是：每個詞可以同時「看整句話」，而不是只看前後幾個字。

⸻

(3) Multi-Head Attention（多頭注意力）
• 不只一組 Q、K、V，而是有多組「頭」。
• 每個頭專門學不同的語意關係（例如一個頭專門關注語法，一個頭專門關注主題）。
• 最後把這些頭的結果拼在一起，更全面。

⸻

(4) 前饋神經網路（Feed Forward Network, FFN）
• 每個位置的詞向量會再經過一個小型的神經網路，增加表達能力。

⸻

(5) 殘差連接 & Layer Normalization
• 殘差（Residual）：避免訊息在深層傳遞中消失。
• 正規化（LayerNorm）：讓訓練更穩定。

⸻

(6) Encoder / Decoder 架構
• Encoder：多層疊加，讓輸入句子被轉換成高層語意表示。
• Decoder：一樣多層，但有額外的 Masked Attention，避免模型「偷看未來的字」。

生成對抗網路（GAN）的運作方式

生成式AI與傳統機器學習的差異

系列文

AI創世紀：生成式智慧的無限想像共 30 篇

RSS系列文訂閱系列文

0 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19864 篇

完賽人數

529 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

AI創世紀：生成式智慧的無限想像系列 第 3 篇