Day 3｜早期語言模型：從 Word2Vec 到 GPT-2

2025 iThome 鐵人賽

DAY 3

生成式 AI

AI Development系列第 3 篇

17th鐵人賽

ur07381

2025-09-17 16:36:00

102 瀏覽

分享至

今天大家隨口就是「GPT」、「大模型」，但如果沒有 Word2Vec、ELMo、GPT-2 這些「中繼站」，我們不可能走到現在。
在我看來，這些模型不只是技術上的演進，而是一步步在「重新定義電腦怎麼理解文字」。

** Word2Vec：讓文字有了「座標」**
2013 年 Google 的 Mikolov 提出 Word2Vec。對我來說，它最大的突破是：
文字第一次有了空間座標。

在這之前，電腦只會把文字當作 one-hot 向量，彼此完全獨立，像是一堆孤島。
Word2Vec 用 Skip-gram / CBOW，學會把「相似語境」的字放在彼此靠近的位置。
最經典的例子是：
- king - man + woman ≈ queen
- 我第一次跑這個算式時，看到「結果居然真的是 queen」，整個雞皮疙瘩。

那時候的我腦中閃過一句話：

電腦真的開始「理解」語言了嗎？

ELMo：語境化的突破
Word2Vec 雖然神奇，但有一個致命問題：一個字只有一個向量。
「bank」在「河岸」和「銀行」的語境裡，應該是不同意思，但在 Word2Vec 裡是同一個座標。

2018 年 ELMo（Embeddings from Language Models）出現，帶來了contextual embedding：
它會根據句子上下文，給同一個詞不同的向量。
這等於是第一次讓「語境」真的被編碼進去。

我第一次用 ELMo 做文本分類時，準確率直接拉高快 10%。
那感覺就像是：從一張黑白地圖，變成了彩色地圖。

GPT-2：文字可以「流動」起來
2019 年 GPT-2 的問世，是真正讓我震撼的時刻。
它不只是做 embedding，而是能生成連續的段落。

GPT-2 用了 1.5 億到 15 億參數不等的 Transformer，直接把「下一個字的預測」玩到極致。
我當時丟了一句：「The future of AI is」，結果它接著寫出一整段充滿邏輯的英文短文。
那一刻，我第一次覺得：
「語言模型」不再只是輔助，而是能成為共同創作者。

從 Word2Vec 到 GPT-2，我的體會

Word2Vec → 靜態理解：讓電腦知道「字跟字的關係」。
ELMo → 動態理解：讓電腦開始懂「語境差異」。
GPT-2 → 生成能力：讓電腦能「說出連貫的話」。

如果把這段歷史比喻成樂團：
Word2Vec 是調音，把樂器對到正確音高。
ELMo 是配樂，能根據場景調整旋律。
GPT-2 是即興演奏，樂手開始真的「創作」。

結語
今天的大模型風光無限，但我們不能忘記，
它們其實是站在 Word2Vec、ELMo、GPT-2 這些先驅的肩膀上。

從靜態到動態，再到生成，這條路線其實就是一個故事：
電腦不只要懂文字，更要學會「在語境中活用文字」。

Day 2｜Transformer 革命：為什麼 Attention 改變了一切

Day 4｜從雲端到邊緣：生成式AI的部署挑戰

系列文

AI Development 共 19 篇

RSS系列文訂閱系列文

0 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19864 篇

完賽人數

529 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

AI Development系列 第 3 篇