iT邦幫忙

2025 iThome 鐵人賽

DAY 3
0
生成式 AI

AI Development系列 第 3

Day 3|早期語言模型:從 Word2Vec 到 GPT-2

  • 分享至 

  • xImage
  •  

今天大家隨口就是「GPT」、「大模型」,但如果沒有 Word2Vec、ELMo、GPT-2 這些「中繼站」,我們不可能走到現在。
在我看來,這些模型不只是技術上的演進,而是一步步在「重新定義電腦怎麼理解文字」。

** Word2Vec:讓文字有了「座標」**
2013 年 Google 的 Mikolov 提出 Word2Vec。對我來說,它最大的突破是:
文字第一次有了空間座標。

  • 在這之前,電腦只會把文字當作 one-hot 向量,彼此完全獨立,像是一堆孤島。
  • Word2Vec 用 Skip-gram / CBOW,學會把「相似語境」的字放在彼此靠近的位置。
  • 最經典的例子是:
    • king - man + woman ≈ queen
    • 我第一次跑這個算式時,看到「結果居然真的是 queen」,整個雞皮疙瘩。

那時候的我腦中閃過一句話:

電腦真的開始「理解」語言了嗎?

ELMo:語境化的突破
Word2Vec 雖然神奇,但有一個致命問題:一個字只有一個向量。
「bank」在「河岸」和「銀行」的語境裡,應該是不同意思,但在 Word2Vec 裡是同一個座標。

2018 年 ELMo(Embeddings from Language Models)出現,帶來了contextual embedding:
它會根據句子上下文,給同一個詞不同的向量。
這等於是第一次讓「語境」真的被編碼進去。

我第一次用 ELMo 做文本分類時,準確率直接拉高快 10%。
那感覺就像是:從一張黑白地圖,變成了彩色地圖。

GPT-2:文字可以「流動」起來
2019 年 GPT-2 的問世,是真正讓我震撼的時刻。
它不只是做 embedding,而是能生成連續的段落。

GPT-2 用了 1.5 億到 15 億參數不等的 Transformer,直接把「下一個字的預測」玩到極致。
我當時丟了一句:「The future of AI is」,結果它接著寫出一整段充滿邏輯的英文短文。
那一刻,我第一次覺得:
「語言模型」不再只是輔助,而是能成為 共同創作者。

從 Word2Vec 到 GPT-2,我的體會

  1. Word2Vec → 靜態理解:讓電腦知道「字跟字的關係」。
  2. ELMo → 動態理解:讓電腦開始懂「語境差異」。
  3. GPT-2 → 生成能力:讓電腦能「說出連貫的話」。

如果把這段歷史比喻成樂團:
Word2Vec 是調音,把樂器對到正確音高。
ELMo 是配樂,能根據場景調整旋律。
GPT-2 是即興演奏,樂手開始真的「創作」。

結語
今天的大模型風光無限,但我們不能忘記,
它們其實是站在 Word2Vec、ELMo、GPT-2 這些先驅的肩膀上。

從靜態到動態,再到生成,這條路線其實就是一個故事:
電腦不只要懂文字,更要學會「在語境中活用文字」。


上一篇
Day 2|Transformer 革命:為什麼 Attention 改變了一切
下一篇
Day 4|從雲端到邊緣:生成式AI的部署挑戰
系列文
AI Development11
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言