[Day 5] 從 LLM 到 Transformer：大語言模型為什麼能運作？

2025 iThome 鐵人賽

DAY 5

生成式 AI

17th鐵人賽

146 瀏覽

在Day3已經安裝並使用過transformers這個套件，還用GPT-2生成了第一段文字。當時我只是把它當成工具箱，並沒有細講它的背後原理。

接著在Day4，講到大語言模型（LLM）的本質，其實就是一個文字接龍的遊戲。它靠著預測下一個最可能出現的詞，把一句話一個字、一個詞接下去。

那麼問題來了，LLM為什麼能這麼強大？它是怎麼做到在大量語言資料裡抓到關鍵關係的？
答案就是今天的主角 —— Transformer 架構。

為什麼需要Transformer？
在Transformer出現之前，處理文字的主流方法是RNN（循環神經網路 或 LSTM（長短期記憶網路。

優點：可以按順序讀文字，抓到上下文。
缺點：速度慢，長句子容易遺忘前面的資訊，前面的資訊傳不太到後面。
這也就是為什麼早期的模型（像GPT-2）有時候會重複、跳Tone。因為它們的架構不夠好，難以捕捉長距離的語言關聯。

Transformer的關鍵：Attention機制
Transformer最大的創新就是 Attention。

直觀理解：當你在讀一句話時，你不會每個字都同等重視，而是會把注意力放在關鍵詞上。
在模型裡：Attention會幫每個詞分配一個權重，告訴模型應該多看哪些詞，少看哪些詞。
舉例：
「我昨天在教室準備報告，結果教授突然問我一個問題。」
如果模型要猜「問我」後面應該接什麼，最相關的資訊就是「教授」跟「問題」，而不是「昨天」或「教室」。這就是 Attention在發揮作用，它會幫你抓出句子裡真正重要的部分。

與LLM的連結
LLM之所以能運作，就是因為Transformer讓它可以：