iT邦幫忙

鐵人檔案

2025 iThome 鐵人賽
回列表
AI & Data

實戰派 AI 工程師帶你 0->1 系列

前陣子當 AI 工程師滿三年,雖然做了很多項目,但這一年來開始更進一步了解模型原理及架構,所以想透過寫成文章的方式,進而一步整理觀念,希望能幫助到剛開始學習的小白,或想要更進一步了解原理的人。

本挑戰預計帶給大家:
1. attention
2. 位置編碼
3. kv cache
4. 歸一化
5. FFN, MoE

參賽天數 29 天 | 共 29 篇文章 | 1 人訂閱 訂閱系列文 RSS系列文
DAY 11

Day11: FFN (下)

前情提要 昨天簡單介紹了 FFN 以及激活函數,會發現其實其中的觀念也是很多的。 參考文章&圖片來源: https://www.cnblogs.com/...

2025-09-05 ‧ 由 jeremylee 分享
DAY 12

Day12: BatchNorm & LayerNorm

前情提要 昨天終於把 FFN 的部分講完也實作完了,雖然只是小小一個 block 但內部其實包含了很多觀念。 參考文章&圖片來源: https://ww...

2025-09-06 ‧ 由 jeremylee 分享
DAY 13

Day13: RMSNorm & 實作

前情提要 昨天已經介紹完 BatchNrom, LayerNorm, 參考文章: https://www.cnblogs.com/rossiXYZ/p/1877...

2025-09-07 ‧ 由 jeremylee 分享
DAY 14

Day14: 兩周小總結

前情提要 昨天已經把歸一化的部分介紹完也實作完了,那其實還有很多歸一化的方法,就看自己使用的場景。 今天我們來把這兩周學過的做個總結,方便自己做個檢視,看自己哪...

2025-09-08 ‧ 由 jeremylee 分享
DAY 15

Day15: 位置編碼 (上)

前情提要 昨天主要是複習這兩周學習過的觀念,也說明了為什麼需要位置編碼,因為 attention 具有位置不變性。 參考文章: https://www.cnbl...

2025-09-09 ‧ 由 jeremylee 分享
DAY 16

Day16: 位置編碼(下)

前情提要 昨天已經把位置編碼的演進介紹完了,需要考慮的點蠻多的。 參考來源: https://www.cnblogs.com/rossiXYZ/p/187447...

2025-09-10 ‧ 由 jeremylee 分享
DAY 17

Day17: 資源估計 (上)

前情提要 昨天一樣分步驟實作完了三角函數的位置編碼,也就是 transformer 當初提出來所用的方法, 參考文章&圖片來源: https://www...

2025-09-11 ‧ 由 jeremylee 分享
DAY 18

Day18: 資源估計 (下)

前情提要 昨天介紹了數據類型以及如何簡單模型模型參數量,最後有提到激活的部分,我們針對這個更加詳細介紹。 參考連結 & 圖片來源: https://ww...

2025-09-12 ‧ 由 jeremylee 分享
DAY 19

Day19: kv cache (上)

前情提要 前兩天介紹了資源估計的概念,大概知道了 attention 為什麼有序列長度二次方的關係,那在 inference 怎麼樣去做優化,這就是今天要介紹的...

2025-09-13 ‧ 由 jeremylee 分享
DAY 20

Day 20: kv cache (下)

前情提要 昨天介紹完了 kv cache,觀念上很簡單,就是空間換取時間,但背後其實有很多優化的技巧等等。 底下以 nanoVLM 的 code 來做解析,程式...

2025-09-14 ‧ 由 jeremylee 分享