隨著 深度學習 與 Transformer 架構 的成功,自然語言處理(NLP)進入了一個嶄新的時代。傳統的語言模型通常依靠 n-gram 或 RNN 進行訓練,受限於語料大小與模型表達能力,往往無法捕捉語言中長距離的依賴關係。而 Transformer 的 Self-Attention 機制 則解決了這一問題,使模型可以高效地理解上下文,為 大型語言模型(Large Language Models, LLMs) 的誕生鋪平道路。
OpenAI 所提出的 GPT(Generative Pre-trained Transformer) 系列是 LLM 的代表之一:
採用了 Transformer Decoder 架構。
提出「先預訓練,後微調」的思路:先在大規模文本上訓練,再針對特定任務進行微調。
展現了 LLM 在多任務遷移學習上的潛力。
模型規模擴大至 15 億參數。
展示了強大的 零樣本(Zero-Shot)能力,能在未經專門訓練的情況下完成任務。
因可能被濫用而一度未完全公開,掀起關於 AI 安全性的廣泛討論。
參數量躍升至 1750 億,成為里程碑。
引入 少樣本學習(Few-Shot Learning) 概念,僅需給出少量範例即可完成複雜任務。
被廣泛應用於聊天機器人、程式碼生成、輔助寫作等領域。
在理解力與生成能力上更進一步,支援多模態輸入(文字與圖片)。
使得 LLM 在教育、研究、創作與商業應用上發揮巨大影響。
大型語言模型不僅僅是「更大的模型」,它們展現出 涌現能力(Emergent Abilities),能夠在沒有明確設計的情況下,自主學習語言結構、邏輯推理,甚至展現出跨領域的知識整合能力。這讓 LLM 成為生成式 AI 的核心基礎,也引發了新一波 AI 革命。