這系列文章來自對一個知名面試題目的有感而發:「從瀏覽器網址列輸入網址、按下 Enter 後會發生什麼事?」
計算損失 接著先以一個小文本作為訓練數據,來實際計算一次,以下是一本短篇小說: import os import urllib.request file_pa...
既然可以計算 Loss 了,接著終於要進到最關鍵的訓練環節,將 dataset 提供給模型,透過迴圈跌代每一個 batch,在每一個 batch 中計算 Los...
在使用 LLM 時,我們可以發現那怕是一樣的 prompt 每次生成的文字都有所不同,透過在生成文字的過程中增添一些隨機性,但這個隨機又不能隨機到會變成胡言亂語...
最終前面完整的訓練結果,可以很容易的透過 PyTorch 提供的方法來保存與讀取: torch.save(model.state_dict(), "m...