微調是指在一個已經在海量通用數據上訓練好的基礎模型(Foundation Model)之上,使用少量、特定領域的數據集,進行額外的訓練,以調整模型的權重。微調讓通用的基礎模型在特定任務上更專業、更精確。
微調的核心目的,是讓模型從「大致知道」變成「精確做到」。主要原因有以下三點:
VLM 處理的是兩種模態(文本和視覺),這使其微調過程比純文本的 LLM 更加複雜。VLM 與LLM 都可以使用以下主要的微調策略:
VLM 的架構通常幾個主要部分:視覺編碼器 (Vision Encoder)、語言解碼器 (Language Decoder/Backbone)及連接器,這在微調時帶來了獨特的挑戰和選擇: