[Day11] 什麼是大型語言模型（LLM）？

2025 iThome 鐵人賽

DAY 11

生成式 AI

從上下文工程到 Agent：30 天生成式 AI 與 LLM 學習紀錄系列第 11 篇

17th鐵人賽

ruiyang0630

團隊nutc imac

2025-09-25 22:58:13

96 瀏覽

分享至

　　在前十天的內容裡，我們一路從 NLP 的基本概念、Transformer、到預訓練模型 (PLM)，理解了 BERT、T5、GPT 等經典模型的原理，這些模型推動了 NLP 的快速進步，但真正讓「AI」走進我們生活的是大型語言模型 (LLM, Large Language Model)。
　　那 LLM 和傳統 PLM 有什麼不同呢？為什麼會在 2022 年底以 ChatGPT 為代表，掀起一場跨世代的革命？

LLM 的定義

　　LLM 他其實一樣是一個「語言模型」，一樣是透過預測下一個 token 來學習語言規律，以及理解語意，但他與傳統 PLM 不同的地方是，LLM 的參數量更大，從「億級」到「百億、千億級」的參數量，訓練資料也更大，從「數十億的 token」到「數兆級 token」。
　　根據大家的共識，只要一個模型能展現湧現能力（Emergent Abilities），例如上下文學習、逐步推理等，就可以被稱為 LLM。

LLM 的關鍵能力

湧現能力 (Emergent Abilities)
　　湧現能力指的是，當模型規模（參數數量、訓練資料量、計算資源）達到一定程度後，會「突然出現」小模型沒有的新能力，像是可能在數學推理的部分，小模型可能走到第二步就會亂猜，但達到一定規模後，大型模型的準確率會突然急遽增加，或是原本小模型不會翻譯，大模型突然就能做到基本翻譯等。
上下文學習 (In-context Learning)
　　在GPT-3 首次被提出，強調不需要重新訓練，只要在 Prompt 中給幾個範例(few-shot)，模型就能「舉一反三」，對比 PLM，PLM 可能需要大量的標記資料+fine tune，LLM 只要改 Prompt 就可以了。
Instruction Following
　　透過 Instruction Tuning 讓模型學會理解自然語言指令，不用再針對每個任務單獨做訓練，ChatGPT 之所以受歡迎，就是因為只要輸入一段自然語言，就能讓它完成作文、程式設計、翻譯等任務。
逐步推理 (Step-by-Step Reasoning)
　　複雜的邏輯一直是 NLP 長久以來的難題，LLM 透過思維鏈 (Chain-of-Thought, CoT)Prompt，可以展現逐步推理能力，讓準確率提升，例如解數學題、邏輯謎題，先把中間步驟寫出來，再得到最終答案。