iT邦幫忙

鐵人檔案

2025 iThome 鐵人賽
回列表
AI & Data

實戰派 AI 工程師帶你 0->1 系列

前陣子當 AI 工程師滿三年,雖然做了很多項目,但這一年來開始更進一步了解模型原理及架構,所以想透過寫成文章的方式,進而一步整理觀念,希望能幫助到剛開始學習的小白,或想要更進一步了解原理的人。

本挑戰預計帶給大家:
1. attention
2. 位置編碼
3. kv cache
4. 歸一化
5. FFN, MoE

參賽天數 29 天 | 共 29 篇文章 | 1 人訂閱 訂閱系列文 RSS系列文
DAY 21

Day 21: GQA (上)

前情提要 前兩天主要是講 kv cache 的計算量及需要暫存多少記憶體,給出了一個公式以及優化的方向。 參考文章: https://www.cnblogs.c...

2025-09-15 ‧ 由 jeremylee 分享
DAY 22

Day 22: GQA (下)

前情提要 昨天簡單介紹了 GQA 相關概念,但實際怎麼實作讓我們繼續看下去。 1. repeat_interleave vs expand https://gi...

2025-09-16 ‧ 由 jeremylee 分享
DAY 23

Day 23: MoE 基礎觀念

前情提要 昨天我們已經將 GQA 分步驟實作完了,目前大部分 LLM 都是走這種架構,所以了解一下。 參考文章 & 圖片來源 https://www.c...

2025-09-17 ‧ 由 jeremylee 分享
DAY 24

Day 24: MoE 實作 (上)

前情提要 昨天把簡單的 MoE 觀念介紹完了,主要就是三個部分專家, 門控, 選擇器。 參考文章 & 圖片來源 https://www.cnblogs....

2025-09-18 ‧ 由 jeremylee 分享
DAY 25

Day 25: MoE 實作 (中) Auxiliary-Loss

第二十五天: MoE 實作 Auxiliary-Loss 前情提要 昨天基本上已經把 inference 的 MoE 完成了,但還沒有談到如何平衡負載 參考文...

2025-09-19 ‧ 由 jeremylee 分享
DAY 26

Day 26: MoE 實作 (下) Auxiliary-Loss-Free

前情提要 昨天我們把 Auxiliary-Loss 的方式時做完了,這是比較早期提出來的方式,目前使用率還是蠻高的。 1. Auxiliary-Loss-Fre...

2025-09-20 ‧ 由 jeremylee 分享
DAY 27

Day 27: MoE (分享自身經驗)

前情提要 前幾天我們已經把 MoE 介紹完也實作完了,主要是應用在 LLM 方面,那如果是其他任務呢? 0. 分享 前陣子開始研究 ASR 及 AST 相關研究...

2025-09-21 ‧ 由 jeremylee 分享
DAY 28

Day 28: RoPE 觀念

前情提要 前幾天已經把 MoE 觀念以及實作介紹完了,剩下最後一塊拼圖也就是 RoPE。 參考文章 & 圖片來源: https://www.cnblog...

2025-09-22 ‧ 由 jeremylee 分享
DAY 29

Day 29: RoPE 實作

前情提要 昨天已經把 RoPE 觀念介紹完了,會發現數學公式比絕對位置編碼複雜一點,但直接應用在 Q 跟 K 而不是與詞量相加,這樣子更有效率。 參考文章: h...

2025-09-23 ‧ 由 jeremylee 分享