Day 14：微調方法 (Fine-tuning) Full fine-tune vs Feature extraction

2025 iThome 鐵人賽

DAY 14

佛心分享-IT 人自學之術

17th鐵人賽

141 瀏覽

當我們擁有一個強大的預訓練模型（如 BERT 或 GPT）時，它擁有廣泛的通用語言知識。然而，要讓它解決特定領域（如金融、法律、醫療）或特定任務（如公司產品情感分析）的問題，我們就需要進行 微調（Fine-tuning）。

微調是將預訓練模型的通用智慧，轉化為解決特定問題的專業能力的過程。

預訓練（Pre-training）讓 LLM 在巨量的通用語料上學會了基礎的語法和常識。但它並不知道你的公司產品名稱、行業術語，或法律文件的複雜結構。

微調的目的就是：

微調主要分為兩種策略，各有優缺點和適用情境。

這是目前最主流且效果最好的方法，也是大型模型微調的標準做法。

定義：在預訓練模型的基礎上，加上一個針對特定任務的分類頭，然後在訓練過程中，對模型所有的參數（包含預訓練部分和新的分類頭）都進行訓練和更新。
關鍵細節：為了不破壞模型已學到的寶貴知識，通常會使用一個比預訓練時小很多的學習率（Learning Rate）。
比喻：一位經驗豐富的攝影師，為了拍攝特定的微距昆蟲主題，他必須在保持核心技巧的同時，微調他的所有拍攝參數（鏡頭、光圈、快門）來適應新任務。
優缺點：
- 優點：效果卓越，適應性強，能達到最高的準確率。
- 缺點：訓練成本極高，需要大量的時間和運算資源；如果針對不同任務微調，每個任務都需要儲存一份完整的模型副本（儲存成本高）。

這種方法將預訓練模型視為一個固定的「高效能特徵提取器」。

定義：凍結預訓練模型大部分或全部的參數，只訓練一個接在模型後面的、全新的、輕量的分類器（如羅吉斯回歸、MLP）。
運作：模型只負責將文本轉換成高品質的嵌入向量（Embeddings）或隱層特徵，而新的分類器則學習如何根據這些固定的特徵來完成任務。
比喻：我們請一位頂級攝影師幫忙拍照（提取特徵），但他的攝影風格（模型權重）完全不改變。我們自己再學習如何根據這些照片來分辨貓和狗。
優缺點：
- 優點：訓練成本低、速度快、資源消耗少；在資料集很小的情況下，不易出現過度擬合（Overfitting）。
- 缺點：效果可能有限，特別是當新任務領域與預訓練數據差異很大時。