此系列文章會利用Happy-LLM這個開源教學課程,來記錄自己學習LLM原理的心得與過程,並額外介紹LLM的各項延伸應用,例如上下文工程、few-shot、RAG、MCP、Agent等。
在前十天的內容裡,我們一路從 NLP 的基本概念、Transformer、到預訓練模型 (PLM),理解了 BERT、T5、GPT 等經典模型的原理,這些模...
一個 LLM 是怎麼被「養成」的呢?他和 BERT 這類傳統 PLM 的訓練過程又有什麼差異?LLM 的訓練大致可以分為三個階段: Pretrain Supe...
昨天我們介紹了訓練三階段的第一階段 Pretrain,LLM 會透過海量的語料庫學會基本的語言模式,建立「知識基礎」,但這時候的模型,其實還不會「聽懂人類的...
在前幾天的學習中,已經認識了 Transformer 的基本結構,也了解了 LLM 迭代以及訓練三階段,從今天開始我們將自己手搓大模型,從零開始實現一個 L...
昨天我們完成了超參數的定義 ModelConfig,以及 RMSNorm 模塊,今天我們會逐步完成 LLaMA2 的關鍵結構,讓模型逐漸成形。 LLaMA2 A...
昨天我們已經完成了 LLaMA2 的 Attention 模組,今天我們要繼續完成剩下的部分 LLaMA2 MLP 模塊 MLP(Multi-Layer P...
目前為止,我們已經完成了 LLaMA2 模型的基本架構,但如果要真正開始訓練,第一步就必須先處理文字的輸入,在 NLP 任務中,Tokenizer 負責把「...
昨天我們完成了 Tokenizer 的訓練實作,有了之前幾天奠定的基礎後,今天終於要開始訓練一個真正的 LLM! 我們的目標是建立一個約 8,000 萬參...
我們昨天從零開始手寫了 LLaMA2,並且體驗了 tokenizer 訓練和簡單的預訓練流程,雖然收穫滿滿,但實際上很少人會真的從零實作 Transform...
昨天 Day19 我們用 Transformers + DeepSpeed 完成一個模型的預訓練,接下來要讓模型理解自然語言,所以需要SFT。 Pretri...