1. 為什麼要懂Log系統?昨天我們把環境準備好了,但在正式實作前,想先補充一點背景知識:不同的Log系統有什麼差別?為什麼我要用 Loki?這樣Day7開始實...
前情提要
昨天我們已經將 GQA 分步驟實作完了,目前大部分 LLM 都是走這種架構,所以了解一下。
參考文章 & 圖片來源
https://www.c...
前情提要
昨天花了很多時間在介紹 embedding 跟弱化的 softmax(XX^T)X,如果昨天了解個大概那今天就不太會有問題。
文章參考及圖片來源: h...
前言
自從 GPT 系列爆紅之後大家一提到大型語言模型,腦中浮現的幾乎都是那幾個熟悉的縮寫 GPT-2、GPT-3、GPT-4⋯⋯ 但有趣的是這幾年另一條技術支...
前言
為什麼今天特別想聊聊 base model 呢?因為跟那些早就被綁定特定任務的成品模型比起來,base model 靈活多了、可塑性也更高。我們可以根據需...
資料前處理步驟說明
在上一篇文章中,我們已經完成資料的整併,但仍有一些格式不一致之處,或需要確認是否存在遺漏值並刪除。可以透過以下方式進行檢查。
Step 1...