AI訓練的關鍵在於提供高品質的問答對 (QA Pairs)。手動編寫將會耗費大量時間,因此我會利用FAISS知識庫和大型語言模型 (LLM),來自動化這個過程。
我會使用一個名為 synthesize_qa_from_docs 的函數。它的運作原理是我們給它一個指令,這個函數會讓AI自己閱讀我們知識庫中的文件,然後自動生成一組組的問答對。高效地產生與資料高度相關的訓練集。
有了問答對後,我們需要將它們轉換成模型可以理解的格式。這一步會使用 prepare_dataset_for_causal_lm 函數,它會自動將文字內容分詞 (Tokenization) 並加上標籤 (Labels),為後續的訓練做好準備。
最後,需要設定訓練的規則,也就是 TrainingArguments 中的關鍵參數。
例如
這些參數就像是為AI設定導航系統,精準地控制訓練的過程,確保能得到一個高效且優質的模型。
明天會帶著這些準備好的資料與參數,讓模型開始學習,謝謝各位今天的觀看。