iT邦幫忙

2025 iThome 鐵人賽

DAY 5
0
生成式 AI

30天生成式AI入門與實作日記系列 第 5

[Day 5] 從 LLM 到 Transformer:大語言模型為什麼能運作?

  • 分享至 

  • xImage
  •  

在Day3已經安裝並使用過transformers這個套件,還用GPT-2生成了第一段文字。當時我只是把它當成工具箱,並沒有細講它的背後原理。

接著在Day4,講到大語言模型(LLM)的本質,其實就是一個文字接龍的遊戲。它靠著預測下一個最可能出現的詞,把一句話一個字、一個詞接下去。

那麼問題來了,LLM為什麼能這麼強大?它是怎麼做到在大量語言資料裡抓到關鍵關係的?
答案就是今天的主角 —— Transformer 架構

為什麼需要Transformer?
在Transformer出現之前,處理文字的主流方法是RNN(循環神經網路LSTM(長短期記憶網路

  • 優點:可以按順序讀文字,抓到上下文。
  • 缺點:速度慢,長句子容易遺忘前面的資訊,前面的資訊傳不太到後面。
    這也就是為什麼早期的模型(像GPT-2)有時候會重複、跳Tone。因為它們的架構不夠好,難以捕捉長距離的語言關聯。

Transformer的關鍵:Attention機制
Transformer最大的創新就是 Attention

  • 直觀理解:當你在讀一句話時,你不會每個字都同等重視,而是會把注意力放在關鍵詞上。
  • 在模型裡:Attention會幫每個詞分配一個權重,告訴模型應該多看哪些詞,少看哪些詞。
    舉例:
    「我昨天在教室準備報告,結果教授突然問我一個問題。」
    如果模型要猜「問我」後面應該接什麼,最相關的資訊就是「教授」跟「問題」,而不是「昨天」或「教室」。這就是 Attention在發揮作用,它會幫你抓出句子裡真正重要的部分。

與LLM的連結
LLM之所以能運作,就是因為Transformer讓它可以:

  1. 理解長距離的語言依賴關係。
  2. 在大量資料上進行高效訓練。
  3. 透過多層Attention,把文字背後的語境捕捉得更精準。
    這就是為什麼現在幾乎所有的大語言模型(GPT、Claude、Gemini…)都離不開Transformer架構。

上一篇
[Day 4] 大語言模型(LLM)是什麼?
下一篇
[Day 6] 什麼是 Token?AI 為什麼要切詞?
系列文
30天生成式AI入門與實作日記8
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言