2023 iThome 鐵人賽

DAY 11

AI & Data

用單張顯卡探索大型語言模型的奧秘系列第 11 篇

Day 11 - Baby LLama2 Chinese (5) Pretrain階段任務詳解

15th鐵人賽

jjchen1

團隊我在鐵人賽烙賽、也在外木山裸泳◑ω◐

2023-09-12 13:38:54

1031 瀏覽

分享至

Pretrain 階段內容詳解

1. 資料前處理

訓練資料原始字串內容

在medical dataset中的pretrain資料夾中挑幾個樣本出來

json檔中每個line都是一個json物件
每一個line都只有一個key: text
line['text']中就是一個訓練樣本的原始字串

{"text": "外阴上皮样肉瘤的并发症？易并发感染。伴发区域淋巴结转移性肿大，后期常转移至肺。"}
{"text": "转移因子口服液的副作用（不良反应）？尚未见有关不良反应报道"}

　從內容可以看出pretrain階段的訓練資料就是一段一段的文本內容，這邊故意挑短的方便閱讀。

資料前處理程式碼

pretrain資料前處理流程：
1.讀取一個.json檔，
2.把其中每一個樣本的text轉成對應的tokens，
3.在tokens結尾加上一個<eos>的token，
4.之後全部串起來成為一個很長的陣列，
5.最後把陣列型態轉換成uin16(因為字典長度64793 < 2^16)，
6.寫入到一個.bin檔。

以下是medical datasetpretrain階段的資料前處理完整程式碼：

將line['text']字串轉成tokens
- text = line['text']
- ‵text_id=tokenizer.encode(text,add_special_tokens=False)‵
在結尾加上一個special_token<eos>
- text_id.append(tokenizer.special_tokens['<eos>'])
限制每個樣本的token總數 > 5，否則丟棄
將所有樣本的tokens(text_id)串在一起成為很長的一個陣列(doc_ids)
將doc_ids轉成uint16陣列後寫入.bin檔
arr = np.array(doc_ids,dtype=np.uint16)

`data_process.py`

def process_medical(data_path,name):
    f=open(data_path,'r')
    doc_ids=[]
    while True:
        line=f.readline()
        if not line:
            break
        line=json.loads(line)
        text=line['text']
        text_id=tokenizer.encode(text,add_special_tokens=False)
        text_id.append(tokenizer.special_tokens['<eos>'])
        if len(text_id)>5:
            doc_ids+=text_id
    arr = np.array(doc_ids,dtype=np.uint16)
    with open('./data/medical_{}.bin'.format(name),'wb') as f:
        f.write(arr.tobytes())

2. 讀取 datasets

流程如下

讀取多個.bin檔內預處理好的uint16陣列doc_ids
data=多個.bin檔內的doc_ids串在一起
刪除陣列尾部資料，確保 len(data) % max_length = 0
- max_length這邊為512
將超長的陣列data切割成多個訓練樣本
- data = data.reshape(-1,max_length)
假設 data.shape = [1024]，reshape過後data.shape=[2,512]，表示有2筆訓練樣本
__getitem__
- max_length = max_seq_len = 512
- X = data['index'][0:511]
- Y = data['index'][1:512]
- `return X,Y

這邊也解釋了為什麼模型輸入的token數與預測token數=max_seq_len-1，主要是方便，因為一筆sample的長度為max_seq_len，X,Y分別的長度就是max_seq_len-1。

`dataset.py`

class PretrainDataset(Dataset):
    def __init__(self,data_path_lst,max_length=256,memmap=False):
            data_lst=[]
            for data_path in data_path_lst:
                with open(data_path,'rb') as f:
                    data=np.fromfile(f,dtype=np.uint16)
                    data_lst.append(data)
            data = np.concatenate(data_lst)
            data = data[:max_length*int(len(data)/max_length)]
            self.data = data.reshape(-1,max_length)       
    def __len__(self):
        return self.data.shape[0]
    def __getitem__(self, index: int):
        #
        sample = self.data[index]
        X=np.array(sample[:-1]).astype(np.int64)
        Y=np.array(sample[1:]).astype(np.int64)
        
        return torch.from_numpy(X),torch.from_numpy(Y)

3. 訓練

pretrain的訓練程式碼在 pretrain.py 中

流程如下

印出 decode過後的 X,Y 內容

這邊的X,Y內容故意刪減過，方便理解，真實情況下所有的X,Y長度都會是max_seq_len-1
- 印出X: "，凹向左心室。室间隔可分为肌部和膜部两部"
- 印出Y: "凹向左心室。室间隔可分为肌部和膜部两部份"
- model的預測的目標就是Y
  - Y = X[1:] + "份"（需要預測的下一個字）
印出 (X,Y,logits) 的 shape 資訊
- X.shape = torch.Size([32, 511])
- Y.shape = torch.Size([32, 511])
- logits.shape = torch.Size([32, 511, 64793])
從印出的資訊可以反推出以下資訊
- batch_size = 32
- max_seq_len = 511 + 1 = 512
- tokenizer的字典長度=64793
從logits.shape我們可以解析model運作的原理 (先忽略batch)
- ‵model預測出的結果是logits`
  - logits.shape = torch.Size([511, 64793])
  - 我們知道 model 需要預測 511個token
  - 怎麼預測呢？每一個位置都要預測出字典中每一個token出現在該位置的機率
  - 因此logits=511x64793個機率值
  - 對 logits 取 argmax可以得到511個token_index

`pretrain.py`

def train_epoch(epoch):
    ...
    for step, (X, Y) in enumerate(train_loader):
        logits = model(X, Y)
        loss = raw_model.last_loss
        scaler.scale(loss).backward()

4. Loss 計算

pretrain 階段 Loss 計算寫在 model.py 裡面

如果簡化一下程式碼，pretrain階段的Loss計算很容易理解：

self.last_loss = F.cross_entropy(logits, Y, ignore_index=-1)
看得出來就是用logits與Y計算cross_entropy
然後要忽略Y=-1位置的loss (token=-1表示該位置沒有任何意義，純粹是填充）

`model.py`

def forward(self, tokens: torch.Tensor, targets: Optional[torch.Tensor] = None) -> torch.Tensor:
    ...
    self.last_loss = F.cross_entropy(logits.view(-1, logits.size(-1)), targets.view(-1), ignore_index=-1)
    ...

pretrain 階段 Debug

在pretain.py中印出X,Y發現竟然有一些是亂碼，可能是在前處理的地方出了問題。

from chatglm_tokenizer.tokenization_chatglm import ChatGLMTokenizer
tokenizer=ChatGLMTokenizer(vocab_file='./chatglm_tokenizer/tokenizer.model')
...
def train_epoch(epoch):
    ...
    for step, (X, Y) in enumerate(train_loader):
        print(tokenizer.decode(X[0].cpu().numpy().tolist()))
        ...

印出的 decode(X) 結果竟然有亂碼

'••·咖H叩IoS曲mI P叩刊叩S阰T叩血匈叩9平onP叫科l叩In I．现1彻叩中I,nq，叫Ir.“内的叩叩＄呻仰和叩引·卧Tn"\'i111几叮m,nlil1mn T『扣？知hm1叩InIoSIIh1111吓1mP叩引1位印加1叩＄，叩叩吓佃·I S阰还T d沁护加meSRP伈盯ne"\'的Qq S卧Run庄叩盯和oPr砬IFull SRX:Experim的t（实验设计）\nSM2212489:Leaf BGM-infes也d24hr rep4; Hordeum vulgare; RNA-Seq fTDJJMTIIJAl[Oumina HiSeq2500)run:38M spots.9.5G bases.4.3Gb downloadsStudy:Ba rl ey tran亡nses to specialist and generalist spider n飞te herbivore s PRJNA326683SRPD7702O A|1expenment s·AII runsshow Abstract SRP:Study（研究课题）\nSam;以骂芦一名巴詈广二二·归－n s\nOrganism:~S RS:Sample（样本）\nStrategy RNA-Seq I相应测序平台、测序数据类型及测序方式(PAIRED或SINGLE)Source.·TRAN SCRI PTOMICLayoul PAIRED Construdionprolocol:Leaf tissue was grnund to fine powder in liquid nitrogen. Total RNA was prepared using theDirectZol RNA extraction kit(Zymo Research). Quality of the RNA extractions was assessed using a Bioanalyzer(Aligent). The libraries were prepar ed at the University of Utah High Throughput Genomicsfaci lity using the lllumina TruSeq Stranded mRNA Library Preparation Kit with poly(A)selectionExr===:SM22124891测序样本(SRS)对应的GEO样本ID号(GSM)Runs:'

嘗試找出model預測結果很差的原因，雖然不一定是造成sft訓練結果很差的原因，不過這邊出現亂碼的確需要解決一下。

Day 10 - Baby LLama2 Chinese (4)

Day 12 - Baby LLama2 Chinese (6) 重新整理Pretrain的資料前處理

系列文

用單張顯卡探索大型語言模型的奧秘共 30 篇

RSS系列文訂閱系列文

7 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

1 則留言

Penut Chen

iT邦研究生 5 級 ‧ 2023-09-12 15:24:37

你的 Tokenizer 是用哪個？既然要從頭訓練的話，要不要考慮 Tokenizer 也重新訓練？比較不容易因為 BPE Tokenizer 會 Fallback To Bytes 所造成的亂碼問題。

回應 2
檢舉

jjchen1 iT邦新手 4 級 ‧ 2023-09-14 12:03:52 檢舉

恩～謝謝你的建議，我應該會用使用的dataset自己重新訓練一個tokenizer來解決亂碼的問題～

jjchen1 iT邦新手 4 級 ‧ 2023-09-14 13:30:36 檢舉

我後來研究了一下，這邊碰到的亂碼問題是在medical dataset裡面就存在的，是數據本身的問題；我目前使用的tokenizer跟baby llama2 chinese這個repo的作者一樣使用ChatGLM的tokenizer

from chatglm_tokenizer.tokenization_chatglm import ChatGLMTokenizer
tokenizer=ChatGLMTokenizer(vocab_file='./chatglm_tokenizer/tokenizer.model')

登入發表回應

我要留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19864 篇

完賽人數

529 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

用單張顯卡探索大型語言模型的奧秘系列 第 11 篇