引言
昨天我們聊到「生成式 AI」的概念,知道它能生成文字、圖片、音樂等等。那麼,這些能力的背後到底是什麼樣的模型在運作呢?
答案就是近年來 AI 界最火紅的架構 —— Transformer,而 GPT 就是它的代表之一。今天我們來簡單理解這兩個關鍵名詞。
Transformer 是什麼?
Transformer 是 Google 在 2017 年提出的一種神經網路架構。它解決了傳統 RNN、LSTM 在處理長文本時速度慢、記憶有限的問題。
Transformer 的核心特色是:
• Attention 機制:會去關注輸入中「最重要的部分」。例如,句子 「小明去超商買牛奶」,模型在處理「牛奶」時,會特別關注「買」這個詞,因為它們關係緊密。
• 平行運算:比起 RNN 逐字處理,Transformer 能同時處理整段文字,訓練速度大幅加快。
一句話總結:Transformer = 記憶力更好 + 速度更快 + 更懂語境。
GPT 是什麼?
GPT(Generative Pre-trained Transformer)就是把 Transformer 架構用在「文字生成」的 AI 模型。
它的名字可以拆開來看:
• Generative:可以產生內容
• Pre-trained:先在大量資料上訓練,之後再針對特定任務調整
• Transformer:背後的架構
GPT 的運作方式:
1. 先讀進大量文字資料(網頁、書籍、文章)。
2. 學會「在句子裡,下一個字最可能是什麼」。
3. 當我們輸入提示詞(Prompt)時,它就會一步步生成合理的內容。
為什麼 GPT 厲害?
• 可以理解上下文(語境理解力強)。
• 能自動延伸內容(寫故事、寫程式碼)。
• 通用性高,不需要每個任務都重新訓練。
今天的重點
• Transformer:強大的模型架構,靠 Attention 機制與平行運算起飛。
• GPT:基於 Transformer 的文字生成模型,讓 AI 不只是分析,而是能創造內容。