這系列文章來自對一個知名面試題目的有感而發:「從瀏覽器網址列輸入網址、按下 Enter 後會發生什麼事?」
計算損失 接著先以一個小文本作為訓練數據,來實際計算一次,以下是一本短篇小說: import os import urllib.request file_pa...
既然可以計算 Loss 了,接著終於要進到最關鍵的訓練環節,將 dataset 提供給模型,透過迴圈跌代每一個 batch,在每一個 batch 中計算 Los...
在使用 LLM 時,我們可以發現那怕是一樣的 prompt 每次生成的文字都有所不同,透過在生成文字的過程中增添一些隨機性,但這個隨機又不能隨機到會變成胡言亂語...
最終前面完整的訓練結果,可以很容易的透過 PyTorch 提供的方法來保存與讀取: torch.save(model.state_dict(), "m...
文字轉 LLM Input 文字要能開始被 LLM 所使用至少要經過三段處理流程,以「Today is happy day」 Tokenize:將一段句子分...
最後幾天,想留給學習 LLM 中心中最軟的一塊 - 數學,固然從概念、從實做交叉切入了 LLM 是怎麼產生,但有些數學觀念在我心裡依舊模模糊糊,尤其作為一個連線...
在嘗試建立模型時,我們要先預選一個方程式的基底形狀,這個方程式需要一定程度可以描述足夠多元的形狀,但什麼樣的 function 才是足夠好的 function,...
當有了層層的 Activation 所疊加起來的模型敘述,數學提供了推測什麼樣結果是最佳的工具,我們將建立起來的模型與 Training Data 的正確解之間...
在尋找最佳解的過程有很多原因會導致我們找不到,誠如前一篇所述,我們是試圖再找一個有最低 Loss 的組合,尋找的過程中,則是透過 learning rate 一...
今天原先想要來回顧一下,從向量到實際計算 Gradient Decent 的過程,但很遺憾的是,從進入到數學的段落後,就有很多細節是我沒辦法在該日理解並紀錄下筆...