今天大家隨口就是「GPT」、「大模型」,但如果沒有 Word2Vec、ELMo、GPT-2 這些「中繼站」,我們不可能走到現在。
在我看來,這些模型不只是技術上的演進,而是一步步在「重新定義電腦怎麼理解文字」。
** Word2Vec:讓文字有了「座標」**
2013 年 Google 的 Mikolov 提出 Word2Vec。對我來說,它最大的突破是:
文字第一次有了空間座標。
那時候的我腦中閃過一句話:
電腦真的開始「理解」語言了嗎?
ELMo:語境化的突破
Word2Vec 雖然神奇,但有一個致命問題:一個字只有一個向量。
「bank」在「河岸」和「銀行」的語境裡,應該是不同意思,但在 Word2Vec 裡是同一個座標。
2018 年 ELMo(Embeddings from Language Models)出現,帶來了contextual embedding:
它會根據句子上下文,給同一個詞不同的向量。
這等於是第一次讓「語境」真的被編碼進去。
我第一次用 ELMo 做文本分類時,準確率直接拉高快 10%。
那感覺就像是:從一張黑白地圖,變成了彩色地圖。
GPT-2:文字可以「流動」起來
2019 年 GPT-2 的問世,是真正讓我震撼的時刻。
它不只是做 embedding,而是能生成連續的段落。
GPT-2 用了 1.5 億到 15 億參數不等的 Transformer,直接把「下一個字的預測」玩到極致。
我當時丟了一句:「The future of AI is」,結果它接著寫出一整段充滿邏輯的英文短文。
那一刻,我第一次覺得:
「語言模型」不再只是輔助,而是能成為 共同創作者。
從 Word2Vec 到 GPT-2,我的體會
如果把這段歷史比喻成樂團:
Word2Vec 是調音,把樂器對到正確音高。
ELMo 是配樂,能根據場景調整旋律。
GPT-2 是即興演奏,樂手開始真的「創作」。
結語
今天的大模型風光無限,但我們不能忘記,
它們其實是站在 Word2Vec、ELMo、GPT-2 這些先驅的肩膀上。
從靜態到動態,再到生成,這條路線其實就是一個故事:
電腦不只要懂文字,更要學會「在語境中活用文字」。