iT邦幫忙

鐵人檔案

2025 iThome 鐵人賽
回列表
AI & Data

實戰派 AI 工程師帶你 0->1 系列

前陣子當 AI 工程師滿三年,雖然做了很多項目,但這一年來開始更進一步了解模型原理及架構,所以想透過寫成文章的方式,進而一步整理觀念,希望能幫助到剛開始學習的小白,或想要更進一步了解原理的人。

本挑戰預計帶給大家:
1. attention
2. 位置編碼
3. kv cache
4. 歸一化
5. FFN, MoE

參賽天數 8 天 | 共 8 篇文章 | 1 人訂閱 訂閱系列文 RSS系列文
DAY 1

Day 1: 從 0 開始

前情提要 在去年寫了"菜鳥AI工程師給碩班學弟妹的挑戰" 這一系列的文章,在當中介紹了 pytorch lightning 框架及實作,放到...

2025-08-26 ‧ 由 jeremylee 分享
DAY 2

Day2: 從 0 訓練 26M GPT

前情提要 昨天主要講了一下這系列的目標,主要是以了解 attention 相關為主,並以一個簡單的 LLM 訓練當作開始,我們就來看看怎麼做吧~ github...

2025-08-27 ‧ 由 jeremylee 分享
DAY 3

Day3: tokenizer

前情提要 昨天我們已經把 LLM 的訓練訓練跑了個大概,但也就只是跑起來還沒開始學習,今天就來細看第一步吧。 主要是以我有實作的 github 當作例子,所以比...

2025-08-28 ‧ 由 jeremylee 分享
DAY 4

Day4: embedding & attention 觀念

前情提要 昨天大致上講解了 tokenizer 的部分,這是 LLM 的第一步,但現在這部分很方便直接套用就行。 0. 複習 在開始之前先複習一下高中數學,不管...

2025-08-29 ‧ 由 jeremylee 分享
DAY 5

Day5: self attention 實作

前情提要 昨天花了很多時間在介紹 embedding 跟弱化的 softmax(XX^T)X,如果昨天了解個大概那今天就不太會有問題。 文章參考及圖片來源: h...

2025-08-30 ‧ 由 jeremylee 分享
DAY 6

Day6: self attention 總結 & MHA 觀念

前情提要 昨天分步驟講解如何實作 self-attention,如果照著步驟依序思考,相信你應該了解大概。 參考文章: https://www.cnblogs....

2025-08-31 ‧ 由 jeremylee 分享
DAY 7

Day7: MHA 實作

前情提要 昨天一樣分步驟講解了 MHA 的運算,怕篇幅太長大腦過載,所以將程式放到今天。 1. 實作 複習一下 self-attention 程式步驟 定義最...

2025-09-01 ‧ 由 jeremylee 分享
DAY 8

Day8: Padding mask

前情提要 昨天一樣分步驟將 Multi-head attention 程式講解完了,比較麻煩是維度處理,但如果看懂就沒有太大問題了。 參考文章: https:/...

2025-09-02 ‧ 由 jeremylee 分享