iT邦幫忙

2025 iThome 鐵人賽

DAY 11
0

  在前十天的內容裡,我們一路從 NLP 的基本概念、Transformer、到預訓練模型 (PLM),理解了 BERT、T5、GPT 等經典模型的原理,這些模型推動了 NLP 的快速進步,但真正讓「AI」走進我們生活的是大型語言模型 (LLM, Large Language Model)。
  那 LLM 和傳統 PLM 有什麼不同呢?為什麼會在 2022 年底以 ChatGPT 為代表,掀起一場跨世代的革命?

LLM 的定義

  LLM 他其實一樣是一個「語言模型」,一樣是透過預測下一個 token 來學習語言規律,以及理解語意,但他與傳統 PLM 不同的地方是,LLM 的參數量更大,從「億級」到「百億、千億級」的參數量,訓練資料也更大,從「數十億的 token」到「數兆級 token」。
  根據大家的共識,只要一個模型能展現湧現能力(Emergent Abilities),例如上下文學習、逐步推理等,就可以被稱為 LLM。

LLM 的關鍵能力

  1. 湧現能力 (Emergent Abilities)
      湧現能力指的是,當模型規模(參數數量、訓練資料量、計算資源)達到一定程度後,會「突然出現」小模型沒有的新能力,像是可能在數學推理的部分,小模型可能走到第二步就會亂猜,但達到一定規模後,大型模型的準確率會突然急遽增加,或是原本小模型不會翻譯,大模型突然就能做到基本翻譯等。

  2. 上下文學習 (In-context Learning)
      在GPT-3 首次被提出,強調不需要重新訓練,只要在 Prompt 中給幾個範例(few-shot),模型就能「舉一反三」,對比 PLM,PLM 可能需要大量的標記資料+fine tune,LLM 只要改 Prompt 就可以了。

  3. Instruction Following
      透過 Instruction Tuning 讓模型學會理解自然語言指令,不用再針對每個任務單獨做訓練,ChatGPT 之所以受歡迎,就是因為只要輸入一段自然語言,就能讓它完成作文、程式設計、翻譯等任務。

  4. 逐步推理 (Step-by-Step Reasoning)
      複雜的邏輯一直是 NLP 長久以來的難題,LLM 透過思維鏈 (Chain-of-Thought, CoT)Prompt,可以展現逐步推理能力,讓準確率提升,例如解數學題、邏輯謎題,先把中間步驟寫出來,再得到最終答案。

LLM 的其他特點

除了上述提到的核心能力,LLM 還有一些值得注意的特徵:

  1. 多語言:由於訓練語料多語言化,LLM 天生支援跨語言,但英文效果通常是最好的。
  2. 長文本處理:BERT 只能處理 512 tokens,而 LLM 已能處理 32k 甚至 200k tokens。
  3. 多模態發展:在文字基礎上,加入圖片、聲音,形成多模態大模型。
  4. 幻覺 (Hallucination):LLM 有時會「一本正經的胡說八道」,生成看似合理卻錯誤的內容,這是目前研究 LLM 的挑戰。

今日總結

  1. LLM 的定義:比傳統 PLM 更大(百億參數、兆級語料),並展現「湧現能力」。
  2. LLM 的能力:湧現、上下文學習、Instruction Following、逐步推理。
  3. LLM 的特點:多語言、長文本、多模態、幻覺。

上一篇
[Day10] Encoder-Decoder 模型:T5 / BART 與 Seq2Seq 預訓練
系列文
從上下文工程到 Agent:30 天生成式 AI 與 LLM 學習紀錄11
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言