iT邦幫忙

2025 iThome 鐵人賽

DAY 10
0
生成式 AI

智慧旅遊顧問--結合 LLM 與 RAG 架構的台灣旅遊資訊助手系列 第 10

【Day10】訓練的起點:準備資料集並設定訓練參數

  • 分享至 

  • xImage
  •  

AI訓練的關鍵在於提供高品質的問答對 (QA Pairs)。手動編寫將會耗費大量時間,因此我會利用FAISS知識庫和大型語言模型 (LLM),來自動化這個過程。

我會使用一個名為 synthesize_qa_from_docs 的函數。它的運作原理是我們給它一個指令,這個函數會讓AI自己閱讀我們知識庫中的文件,然後自動生成一組組的問答對。高效地產生與資料高度相關的訓練集。

有了問答對後,我們需要將它們轉換成模型可以理解的格式。這一步會使用 prepare_dataset_for_causal_lm 函數,它會自動將文字內容分詞 (Tokenization) 並加上標籤 (Labels),為後續的訓練做好準備。

最後,需要設定訓練的規則,也就是 TrainingArguments 中的關鍵參數。
例如

  • num_train_epochs(訓練的輪數)
  • learning_rate(學習速率)
  • per_device_train_batch_size(每批次處理的樣本數)

這些參數就像是為AI設定導航系統,精準地控制訓練的過程,確保能得到一個高效且優質的模型。

明天會帶著這些準備好的資料與參數,讓模型開始學習,謝謝各位今天的觀看。


上一篇
【Day9】什麼是LoRA?
系列文
智慧旅遊顧問--結合 LLM 與 RAG 架構的台灣旅遊資訊助手10
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言