[Day13] 如何訓練一個 LLM？三階段完整流程！(二)

2025 iThome 鐵人賽

DAY 13

生成式 AI

從上下文工程到 Agent：30 天生成式 AI 與 LLM 學習紀錄系列第 13 篇

17th鐵人賽

ruiyang0630

團隊nutc imac

2025-09-27 17:51:28

101 瀏覽

分享至

　　昨天我們介紹了訓練三階段的第一階段 Pretrain，LLM 會透過海量的語料庫學會基本的語言模式，建立「知識基礎」，但這時候的模型，其實還不會「聽懂人類的指令」，更不懂「人類價值觀」。
　　因此，LLM 的訓練還需要 SFT 與 RLHF 兩個步驟，讓模型從一個「只會讀書卻不會實際運用」的學生，變成真正能「遵循指令」並「符合價值觀」的助手。

1. SFT（Supervised Fine-Tuning）

　　預訓練給了 LLM 海量的知識，但他仍然只會用「接龍」的方式生成，SFT 的目的就是讓模型學會理解並執行人類指令。

核心概念

　　傳統 PLM 會針對每個任務單獨微調（分類、翻譯、摘要），而 LLM 會直接訓練「指令遵循能力」，能泛化到更多任務，SFT 透過 instruction dataset，來訓練模型理解指令，但是高品質的指令數據大多都還是需要人工標記，成本極高，部分研究會用 GPT-4 生成指令數據（如 Alpaca）來降低成本。

資料格式

一個典型的 SFT：

{
  "instruction": "將下列文字翻譯成英文：",
  "input": "今天天氣真好",
  "output": "Today is a nice day!"
}

多回合對話

SFT 還能訓練模型具備「多回合對話能力」，這個能力完全來自 SFT 訓練資料的設計。

一次性對話的模型：

user：你好，我是 Datawhale 成員
model：你好！有什麼能幫你嗎？
user：你知道 Datawhale 是什麼嗎？
model：我不知道。

有多回合對話能力的模型：

user：你好，我是 Datawhale 成員
model：你好！有什麼能幫你嗎？
user：你知道 Datawhale 是什麼嗎？
model：Datawhale 是一個開源組織。

2. RLHF（Reinforcement Learning from Human Feedback）

　　SFT 讓模型能聽懂指令，但他可能還是會「答非所問」或給出「不像人回覆的答案」，因此，需要 RLHF 來對齊人類偏好與價值觀。

核心流程

收集人類偏好數據：給模型同一問題的多個回覆，讓標記員標記哪個更好。
訓練獎勵模型（Reward Model, RM）：學會模仿人類的喜好，對模型回答打分數。
強化學習（PPO 演算法）：讓模型不斷生成回覆，根據 RM 的評分來調整策略。

挑戰

　　RLHF 的執行成本極高，需要同時訓練四個模型（Actor、Ref、Reward、Critic），消耗大量的 GPU 資源，為了降低成本，學界提出了 DPO（Direct Preference Optimization），用監督學習直接學習人類偏好，效果接近 RLHF，但更省算力。

今日總結

LLM 的三階段邏輯如下：
Pretrain（讀懂知識) -> SFT（理解指令）-> RLHF（回覆出我們偏好的答案）

參考連結：
https://datawhalechina.github.io/happy-llm/#/

[Day12] 如何訓練一個 LLM？三階段完整流程！(一)

[Day14] 實作一個 LLaMA2 模型 (一)

系列文

從上下文工程到 Agent：30 天生成式 AI 與 LLM 學習紀錄共 30 篇

RSS系列文訂閱系列文

1 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19864 篇

完賽人數

529 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

從上下文工程到 Agent：30 天生成式 AI 與 LLM 學習紀錄系列 第 13 篇