當我們擁有一個強大的預訓練模型(如 BERT 或 GPT)時,它擁有廣泛的通用語言知識。然而,要讓它解決特定領域(如金融、法律、醫療)或特定任務(如公司產品情感分析)的問題,我們就需要進行 微調(Fine-tuning)。
微調是將預訓練模型的通用智慧,轉化為解決特定問題的專業能力的過程。
預訓練(Pre-training)讓 LLM 在巨量的通用語料上學會了基礎的語法和常識。但它並不知道你的公司產品名稱、行業術語,或法律文件的複雜結構。
微調的目的就是:
微調主要分為兩種策略,各有優缺點和適用情境。
這是目前最主流且效果最好的方法,也是大型模型微調的標準做法。
這種方法將預訓練模型視為一個固定的「高效能特徵提取器」。
特性 | 完整微調 (Full Fine-tuning) | 特徵提取 (Feature Extraction) |
---|---|---|
模型權重 | 全部更新(使用小學習率) | 預訓練部分凍結,只訓練分類頭 |
訓練成本 | 高(資源需求高) | 低(資源需求低) |
儲存成本 | 高(每個任務一個完整模型) | 低(共享一個模型,只存分類頭) |
適用情境 | 追求最佳效果、資源充足的大型專案 | 資源有限、資料量小的中小型專案、快速驗證 |
潛在風險 | 小資料集上可能過度擬合 | 效果可能不是最佳 |
在 LLM 的應用實務中,完整微調 (Full Fine-tuning) 雖然成本較高,但因其效果卓越和對特定領域的強大適應性,仍是許多追求最高性能專案的首選。
在接下來的學習中,如果我們要實作程式碼,完整微調是更好的演示範例,因為它能體現 LLM 在遷移學習中的全部潛力。