Day 20 - Baby Llama2 Chinese (13) - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2023 iThome 鐵人賽

DAY 20

AI & Data

用單張顯卡探索大型語言模型的奧秘系列第 20 篇

Day 20 - Baby Llama2 Chinese (13)

15th鐵人賽

jjchen1

團隊我在鐵人賽烙賽、也在外木山裸泳◑ω◐

2023-09-21 23:23:35

261 瀏覽

分享至

目前除了BLEU以外找不到好的衡量GPT模型訓練結果好壞的方法，不過以之前的經驗，其實跟直接算loss也差不多，所以在pretrain與sft的階段都直接使用valid_loss來區別model的好壞。

@torch.no_grad()
def valid_epoch(epoch):
    global best_val_loss
    losses = []
    model.eval()
    for _, (X, Y) in enumerate(val_loader):
        X=X.to(device)
        Y=Y.to(device)
        with ctx:
            logits, loss = model(X, Y)
        losses.append(loss.item())
    model.train()
    val_loss=np.mean(losses)
    #
    logger.info('valid loss = {:.4f}'.format(val_loss))
    if val_loss < best_val_loss:
        best_val_loss = val_loss
        logger.info('best val_loss: {} best_epoch: {} '.format(best_val_loss,epoch))
        torch.save(raw_model.state_dict(),'{}/best.pth'.format(save_dir))
    #
    return val_loss

Day 19 - Baby LLama2 Chinese (13)

Day 21 - ChatGPT API

系列文

用單張顯卡探索大型語言模型的奧秘共 30 篇

RSS系列文訂閱系列文

7 人訂閱

完整目錄

直播研討會

{{ item.channelVendor }} {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

用單張顯卡探索大型語言模型的奧秘系列 第 20 篇

Day 20 - Baby Llama2 Chinese (13)

尚未有邦友留言

標記使用者

用單張顯卡探索大型語言模型的奧秘系列第 20 篇