憑藉小力就可完成訓練──微調參數訓練

2025 iThome 鐵人賽

DAY 2

生成式 AI

Gen AI 探索之路：技術趨勢與實作指南系列第 2 篇

17th鐵人賽 generativeai

whoami

2025-09-16 23:48:40

60 瀏覽

分享至

大型語言模型（Large Language Model, LLM），從名字就知道，它並非一般人能僅靠自己電腦訓練的模型。

這類模型通常需要大量的運算資源與海量資料，因此對個人或小型團隊來說，直接訓練是非常困難的。

不過，近幾年有一種非常廣泛使用的訓練方式，稱為 Parameter Efficient Fine-Tuning（PEFT），透過只微調少量參數，我們便能在有限資源下，對大型語言模型進行下游任務的優化。以下簡介幾種常見方式。

範例中我們所使用的模型為 GPT-oss，它是 OpenAI 於 2025 年推出的開源模型。

值得注意的是，距離上一次 OpenAI 開源模型 GPT-2 已經有一段時間，而本次使用的版本為 20B，gpt-oss-20b 在常見基準測試中的表現與 OpenAI o3‑mini 相近，且僅需 16 GB 記憶體即可在邊緣裝置運行，非常適合用於裝置端應用、本地推論，或在無需昂貴基礎設施的情況下快速優化。

下面所使用的套件是 unsloth 它是一個專門針對大型語言模型進行參數微調的框架，我們可以選擇模型，並透過 LoRA 或是 QLoRA 來訓練模型。

from unsloth import FastLanguageModel
import torch
max_seq_length = 1024
dtype = None

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = "unsloth/gpt-oss-20b",
    dtype = dtype,
    max_seq_length = max_seq_length, # Choose any for long context!
    load_in_4bit = True,  # 4 bit quantization to reduce memory
    full_finetuning = False, # [NEW!] We have full finetuning now!
)

LoRA

原理簡介
LoRA（Low-Rank Adaptation）的核心想法是將大型參數矩陣分解成低秩矩陣，並只更新這些新增的小矩陣。透過這種方式，我們能在保留原始模型能力的同時，大幅降低需要更新的參數量，僅需微調極少部分參數即可完成任務。

在這裡我們使用 LoRA

model = FastLanguageModel.get_peft_model(
    model,
    r = 8, # Choose any number > 0 ! Suggested 8, 16, 32, 64, 128
    target_modules = ["q_proj", "k_proj", "v_proj", "o_proj",
                      "gate_proj", "up_proj", "down_proj",],
    lora_alpha = 16,
    lora_dropout = 0, # Supports any, but = 0 is optimized
    bias = "none",    # Supports any, but = "none" is optimized
    # [NEW] "unsloth" uses 30% less VRAM, fits 2x larger batch sizes!
    use_gradient_checkpointing = "unsloth", # True or "unsloth" for very long context
    random_state = 3407,
    use_rslora = False,  # We support rank stabilized LoRA
    loftq_config = None, # And LoftQ
)

📘 延伸閱讀：LoRA: Low-Rank Adaptation of Large Language Models