iT邦幫忙

2025 iThome 鐵人賽

DAY 7
0
生成式 AI

生成式AI:從歷史與基礎原理到賦予產能的工具系列 第 7

大型語言模型(LLM)的誕生與 GPT 系列

  • 分享至 

  • xImage
  •  

隨著 深度學習Transformer 架構 的成功,自然語言處理(NLP)進入了一個嶄新的時代。傳統的語言模型通常依靠 n-gram 或 RNN 進行訓練,受限於語料大小與模型表達能力,往往無法捕捉語言中長距離的依賴關係。而 Transformer 的 Self-Attention 機制 則解決了這一問題,使模型可以高效地理解上下文,為 大型語言模型(Large Language Models, LLMs) 的誕生鋪平道路。

GPT 系列的發展

OpenAI 所提出的 GPT(Generative Pre-trained Transformer) 系列是 LLM 的代表之一:

  1. GPT-1 (2018)
  • 採用了 Transformer Decoder 架構。

  • 提出「先預訓練,後微調」的思路:先在大規模文本上訓練,再針對特定任務進行微調。

  • 展現了 LLM 在多任務遷移學習上的潛力。

  1. GPT-2 (2019)
  • 模型規模擴大至 15 億參數

  • 展示了強大的 零樣本(Zero-Shot)能力,能在未經專門訓練的情況下完成任務。

  • 因可能被濫用而一度未完全公開,掀起關於 AI 安全性的廣泛討論。

  1. GPT-3 (2020)
  • 參數量躍升至 1750 億,成為里程碑。

  • 引入 少樣本學習(Few-Shot Learning) 概念,僅需給出少量範例即可完成複雜任務。

  • 被廣泛應用於聊天機器人、程式碼生成、輔助寫作等領域。

  1. GPT-4 (2023)
  • 在理解力與生成能力上更進一步,支援多模態輸入(文字與圖片)。

  • 使得 LLM 在教育、研究、創作與商業應用上發揮巨大影響。

LLM 的意義

大型語言模型不僅僅是「更大的模型」,它們展現出 涌現能力(Emergent Abilities),能夠在沒有明確設計的情況下,自主學習語言結構、邏輯推理,甚至展現出跨領域的知識整合能力。這讓 LLM 成為生成式 AI 的核心基礎,也引發了新一波 AI 革命。


上一篇
Self-Attention 機制的力量
下一篇
文本生成:語言模型與應用
系列文
生成式AI:從歷史與基礎原理到賦予產能的工具8
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言