iT邦幫忙

2025 iThome 鐵人賽

DAY 2
1
生成式 AI

AI Development系列 第 2

Day 2|Transformer 革命:為什麼 Attention 改變了一切

  • 分享至 

  • xImage
  •  

Attention 的出現,就像有人告訴你:「不用每個字都照順序讀完,你可以直接跳去看重要的地方。」

舉個開發時的體驗:

  • 在做「中翻英」時,RNN 需要左邊讀一遍,再右邊對齊,結果常常錯位。
  • Attention 模型卻能同時「看」整句中文,然後決定英文句子中某個單字要對應哪一塊資訊。
  • 這種「同時對齊」的能力,讓翻譯的流暢度大幅提升。

換句話說,Attention 讓模型第一次有了「選擇的自由」:它不再被時間順序綁死。

Transformer 的關鍵洞察
2017 年的論文標題很狂:《Attention is All You Need》。但它真的做了一件極簡又強大的事:

  1. 拿掉了循環(RNN)

    • 不再逐字處理,而是同時看整段輸入。
    • 這意味著並行運算變得可能,訓練速度直接飛起來。
  2. 用多頭注意力(Multi-head Attention)分工

    • 每一個「頭」專注於不同關係:
    • 有的頭關心「主詞 → 動詞」,
    • 有的頭關心「形容詞 → 名詞」。
    • 最後把這些「不同觀點」合起來,像團隊腦力激盪。
  3. 層層堆疊,形成深度結構

    • 不再只是短期記憶,而是能疊出跨段落、跨章節的關聯。

這對開發者的意義
我自己最大的感受是:

  • RNN 是在讀故事,一句一句往下讀。
  • Transformer 是在看地圖,一眼就能掌握全局,再決定要走哪條路。

這種「地圖式思維」徹底改變了我設計系統的方式。
在以前,我會想著如何讓模型「記得更多」。現在,我會想「如何讓模型同時看到更多」。


今天我們談到的 GPT、BERT、Stable Diffusion,本質上都站在 Transformer 的肩膀上。

  • BERT 用它來理解語意。
  • GPT 用它來生成語言。
  • Diffusion 用它來控制圖像的逐步生成。

所以如果你問我:為什麼 Attention 改變了一切?
我的答案很簡單:因為它讓 AI 從「線性讀者」變成了「全局觀察者」。
而這一轉變,才是讓生成式 AI 真正起飛的引擎。


上一篇
Day 01 從規則到深度學習:AI 開發的歷史脈絡
下一篇
Day 3|早期語言模型:從 Word2Vec 到 GPT-2
系列文
AI Development11
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言