iT邦幫忙

2025 iThome 鐵人賽

DAY 13
0
生成式 AI

從上下文工程到 Agent:30 天生成式 AI 與 LLM 學習紀錄系列 第 13

[Day13] 如何訓練一個 LLM?三階段完整流程!(二)

  • 分享至 

  • xImage
  •  

  昨天我們介紹了訓練三階段的第一階段 Pretrain,LLM 會透過海量的語料庫學會基本的語言模式,建立「知識基礎」,但這時候的模型,其實還不會「聽懂人類的指令」,更不懂「人類價值觀」。
  因此,LLM 的訓練還需要 SFT 與 RLHF 兩個步驟,讓模型從一個「只會讀書卻不會實際運用」的學生,變成真正能「遵循指令」並「符合價值觀」的助手。

1. SFT(Supervised Fine-Tuning)

  預訓練給了 LLM 海量的知識,但他仍然只會用「接龍」的方式生成,SFT 的目的就是讓模型學會理解並執行人類指令。

核心概念

  傳統 PLM 會針對每個任務單獨微調(分類、翻譯、摘要),而 LLM 會直接訓練「指令遵循能力」,能泛化到更多任務,SFT 透過 instruction dataset,來訓練模型理解指令,但是高品質的指令數據大多都還是需要人工標記,成本極高,部分研究會用 GPT-4 生成指令數據(如 Alpaca)來降低成本。

資料格式

一個典型的 SFT:

{
  "instruction": "將下列文字翻譯成英文:",
  "input": "今天天氣真好",
  "output": "Today is a nice day!"
}

多回合對話

SFT 還能訓練模型具備「多回合對話能力」,這個能力完全來自 SFT 訓練資料的設計。

一次性對話的模型:

user:你好,我是 Datawhale 成員
model:你好!有什麼能幫你嗎?
user:你知道 Datawhale 是什麼嗎?
model:我不知道。

有多回合對話能力的模型:

user:你好,我是 Datawhale 成員
model:你好!有什麼能幫你嗎?
user:你知道 Datawhale 是什麼嗎?
model:Datawhale 是一個開源組織。

2. RLHF(Reinforcement Learning from Human Feedback)

  SFT 讓模型能聽懂指令,但他可能還是會「答非所問」或給出「不像人回覆的答案」,因此,需要 RLHF 來對齊人類偏好與價值觀。

核心流程

  1. 收集人類偏好數據:給模型同一問題的多個回覆,讓標記員標記哪個更好。
  2. 訓練獎勵模型(Reward Model, RM):學會模仿人類的喜好,對模型回答打分數。
  3. 強化學習(PPO 演算法):讓模型不斷生成回覆,根據 RM 的評分來調整策略。

挑戰

  RLHF 的執行成本極高,需要同時訓練四個模型(Actor、Ref、Reward、Critic),消耗大量的 GPU 資源,為了降低成本,學界提出了 DPO(Direct Preference Optimization),用監督學習直接學習人類偏好,效果接近 RLHF,但更省算力。

今日總結

LLM 的三階段邏輯如下:
Pretrain(讀懂知識) -> SFT(理解指令)-> RLHF(回覆出我們偏好的答案)

參考連結:
https://datawhalechina.github.io/happy-llm/#/


上一篇
[Day12] 如何訓練一個 LLM?三階段完整流程!(一)
下一篇
[Day14] 實作一個 LLaMA2 模型 (一)
系列文
從上下文工程到 Agent:30 天生成式 AI 與 LLM 學習紀錄15
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言