iT邦幫忙

鐵人檔案

2025 iThome 鐵人賽
回列表
生成式 AI

從上下文工程到 Agent:30 天生成式 AI 與 LLM 學習紀錄 系列

此系列文章會利用Happy-LLM這個開源教學課程,來記錄自己學習LLM原理的心得與過程,並額外介紹LLM的各項延伸應用,例如上下文工程、few-shot、RAG、MCP、Agent等。

參賽天數 21 天 | 共 21 篇文章 | 0 人訂閱 訂閱系列文 RSS系列文 團隊nutc imac
DAY 11

[Day11] 什麼是大型語言模型(LLM)?

  在前十天的內容裡,我們一路從 NLP 的基本概念、Transformer、到預訓練模型 (PLM),理解了 BERT、T5、GPT 等經典模型的原理,這些模...

2025-09-25 ‧ 由 ruiyang0630 分享
DAY 12

[Day12] 如何訓練一個 LLM?三階段完整流程!(一)

一個 LLM 是怎麼被「養成」的呢?他和 BERT 這類傳統 PLM 的訓練過程又有什麼差異?LLM 的訓練大致可以分為三個階段: Pretrain Supe...

2025-09-26 ‧ 由 ruiyang0630 分享
DAY 13

[Day13] 如何訓練一個 LLM?三階段完整流程!(二)

  昨天我們介紹了訓練三階段的第一階段 Pretrain,LLM 會透過海量的語料庫學會基本的語言模式,建立「知識基礎」,但這時候的模型,其實還不會「聽懂人類的...

2025-09-27 ‧ 由 ruiyang0630 分享
DAY 14

[Day14] 實作一個 LLaMA2 模型 (一)

  在前幾天的學習中,已經認識了 Transformer 的基本結構,也了解了 LLM 迭代以及訓練三階段,從今天開始我們將自己手搓大模型,從零開始實現一個 L...

2025-09-28 ‧ 由 ruiyang0630 分享
DAY 15

[Day15] 實作一個 LLaMA2 模型 (二)

昨天我們完成了超參數的定義 ModelConfig,以及 RMSNorm 模塊,今天我們會逐步完成 LLaMA2 的關鍵結構,讓模型逐漸成形。 LLaMA2 A...

2025-09-29 ‧ 由 ruiyang0630 分享
DAY 16

[Day16] 實作一個 LLaMA2 模型 (三)

昨天我們已經完成了 LLaMA2 的 Attention 模組,今天我們要繼續完成剩下的部分 LLaMA2 MLP 模塊   MLP(Multi-Layer P...

2025-09-30 ‧ 由 ruiyang0630 分享
DAY 17

[Day17] 訓練我們的 Tokenizer!

  目前為止,我們已經完成了 LLaMA2 模型的基本架構,但如果要真正開始訓練,第一步就必須先處理文字的輸入,在 NLP 任務中,Tokenizer 負責把「...

2025-10-01 ‧ 由 ruiyang0630 分享
DAY 18

[Day18] 預訓練一個小型 LLM

  昨天我們完成了 Tokenizer 的訓練實作,有了之前幾天奠定的基礎後,今天終於要開始訓練一個真正的 LLM!  我們的目標是建立一個約 8,000 萬參...

2025-10-02 ‧ 由 ruiyang0630 分享
DAY 19

[Day19] 用 Transformers 實現 LLM 的預訓練!

  我們昨天從零開始手寫了 LLaMA2,並且體驗了 tokenizer 訓練和簡單的預訓練流程,雖然收穫滿滿,但實際上很少人會真的從零實作 Transform...

2025-10-03 ‧ 由 ruiyang0630 分享
DAY 20

[Day20] LLM 的有監督微調 (SFT)

  昨天 Day19 我們用 Transformers + DeepSpeed 完成一個模型的預訓練,接下來要讓模型理解自然語言,所以需要SFT。 Pretri...

2025-10-04 ‧ 由 ruiyang0630 分享