iT邦幫忙

2023 iThome 鐵人賽

DAY 6
0

“baby-llama2-chinese”是一個用於從頭開始預訓練加上SFT的小參數量中文LLaMa2的倉庫。該專案的目的是創建一個能夠流暢進行中文問答的chat-llama2模型,可以在24G單卡上運行。

該專案使用了以下訓練數據:

  • Wiki中文百科(25萬條目)
  • BaiduBaiKe(563萬條目)
  • 醫療數據集

為了讓模型具有特定領域的專業知識,專案選擇了“醫療問答”作為切入點,並嘗試收集了大量的醫療數據。

專案引入了新的中文分詞器來訓練自己的中文LLaMa,選擇使用ChatGLM2的分詞器,其詞表大小為64793。

預訓練語料的預處理採用GPT的通用做法,對語料進行提前分詞,並將所有訓練語料拼接成一個數組以二進制格式存儲到磁盤上。

SFT樣本的構建需要注意質量,並且需要花費時間來清洗數據,以獲得更好的SFT效果。

預訓練和SFT的腳本已提供,並可以根據自身的算力來調整參數,控制模型的計算量和參數量。

目前,作者使用了20億中文token來訓練一個參數量約為50M的極小的baby-llama2模型,並通過SFT實現了一定的中文問答效果,特別是在醫療問答上效果不錯。

由于今天实在抽不出时间,明天补上更多内容.


上一篇
Day5 - 從nanoGPT開始 (4)
下一篇
Day 7 - Baby LLama2 Chinese
系列文
用單張顯卡探索大型語言模型的奧秘30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言