語言模型的自我學習:
模型在training期間如何找到最佳化參數?
機器學習目的:找到訓練資料中合理的參數
機器學習分兩階段:訓練(training/learning)、測試(testing/inference)
訓練:設定hyperparameter,透過最佳化找出參數
測試:使用訓練過的參數進行推論
語言模型訓練第一階段:自我學習
目標:透過大量文字資料,學習知識
資料來源:從網路爬蟲文字資料
資料清理:過濾有害內容、去除HTML tag等符號、去除低品質資料、重複內容移除
語言模型的修練
第一階段-自我學習(pre-train):
第二階段-instruction fine-tuning:
透過pre-train讓模型成為專才或通才:
Instruction Fine-tuning資料收集:
Instruction Fine-tuning:
Meta開源LLaMA讓個人與團隊都可以訓練自己的大型語言模型,因為不用pre-train
名詞解釋:
overfitting: 在training階段找到符合訓練資料的參數,但在testing階段時泛化失敗
supervised learning:大量人工標註資料,讓模型學習
self-supervised learning:少量人工介入,只要讓機器不斷網路爬蟲大量文本資料。
model size:表示模型複雜度,也就是參數量
data size:訓練用的資料量