Day 17 - Baby LLama2 Chinese (11) - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2023 iThome 鐵人賽

DAY 17

AI & Data

用單張顯卡探索大型語言模型的奧秘系列第 17 篇

Day 17 - Baby LLama2 Chinese (11)

15th鐵人賽

jjchen1

團隊我在鐵人賽烙賽、也在外木山裸泳◑ω◐

2023-09-18 23:56:56

591 瀏覽

分享至

由於模型訓練進展很慢，沒有什麼能更新的，今天唯一做的事情就是修改了一下訓練時的程式，每經過一定的iteration就儲存一次最後的checkpoint，否則模型訓練一個epoch實在太久，必須要能夠resume上次的訓練。

def save_ckpt(model, model_args, iter_num, best_val_loss, epoch, ckpt_path):
    """
    將模型、迭代次數、最佳驗證損失和訓練的epoch保存到checkpoint文件中。
    
    Parameters:
        model (torch.nn.Module): 要保存的模型
        iter_num (int): 目前的迭代次數
        best_val_loss (float): 最佳驗證損失
        epoch (int): 目前的訓練epoch數
        ckpt_path (str): checkpoint文件的路徑
    """
    checkpoint = {
        'model': model.state_dict(),
        'model_args': model_args, 
        'iter_num': iter_num,
        'best_val_loss': best_val_loss,
        'epoch': epoch
    }
    
    torch.save(checkpoint, ckpt_path)
    print(f'Checkpoint saved to {ckpt_path}')

Day 16 - Baby LLama2 Chinese (10) SFT階段

Day 18 - Baby LLama2 Chinese (12)

系列文

用單張顯卡探索大型語言模型的奧秘共 30 篇

RSS系列文訂閱系列文

7 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

用單張顯卡探索大型語言模型的奧秘系列 第 17 篇

Day 17 - Baby LLama2 Chinese (11)

尚未有邦友留言

標記使用者

用單張顯卡探索大型語言模型的奧秘系列第 17 篇