前陣子當 AI 工程師滿三年,雖然做了很多項目,但這一年來開始更進一步了解模型原理及架構,所以想透過寫成文章的方式,進而一步整理觀念,希望能幫助到剛開始學習的小白,或想要更進一步了解原理的人。
本挑戰預計帶給大家:
1. attention
2. 位置編碼
3. kv cache
4. 歸一化
5. FFN, MoE
前情提要 前兩天主要是講 kv cache 的計算量及需要暫存多少記憶體,給出了一個公式以及優化的方向。 參考文章: https://www.cnblogs.c...
前情提要 昨天簡單介紹了 GQA 相關概念,但實際怎麼實作讓我們繼續看下去。 1. repeat_interleave vs expand https://gi...
前情提要 昨天我們已經將 GQA 分步驟實作完了,目前大部分 LLM 都是走這種架構,所以了解一下。 參考文章 & 圖片來源 https://www.c...
前情提要 昨天把簡單的 MoE 觀念介紹完了,主要就是三個部分專家, 門控, 選擇器。 參考文章 & 圖片來源 https://www.cnblogs....
第二十五天: MoE 實作 Auxiliary-Loss 前情提要 昨天基本上已經把 inference 的 MoE 完成了,但還沒有談到如何平衡負載 參考文...
前情提要 昨天我們把 Auxiliary-Loss 的方式時做完了,這是比較早期提出來的方式,目前使用率還是蠻高的。 1. Auxiliary-Loss-Fre...
前情提要 前幾天我們已經把 MoE 介紹完也實作完了,主要是應用在 LLM 方面,那如果是其他任務呢? 0. 分享 前陣子開始研究 ASR 及 AST 相關研究...
前情提要 前幾天已經把 MoE 觀念以及實作介紹完了,剩下最後一塊拼圖也就是 RoPE。 參考文章 & 圖片來源: https://www.cnblog...
前情提要 昨天已經把 RoPE 觀念介紹完了,會發現數學公式比絕對位置編碼複雜一點,但直接應用在 Q 跟 K 而不是與詞量相加,這樣子更有效率。 參考文章: h...