前陣子當 AI 工程師滿三年,雖然做了很多項目,但這一年來開始更進一步了解模型原理及架構,所以想透過寫成文章的方式,進而一步整理觀念,希望能幫助到剛開始學習的小白,或想要更進一步了解原理的人。
本挑戰預計帶給大家:
1. attention
2. 位置編碼
3. kv cache
4. 歸一化
5. FFN, MoE
前情提要 在去年寫了"菜鳥AI工程師給碩班學弟妹的挑戰" 這一系列的文章,在當中介紹了 pytorch lightning 框架及實作,放到...
前情提要 昨天主要講了一下這系列的目標,主要是以了解 attention 相關為主,並以一個簡單的 LLM 訓練當作開始,我們就來看看怎麼做吧~ github...
前情提要 昨天我們已經把 LLM 的訓練訓練跑了個大概,但也就只是跑起來還沒開始學習,今天就來細看第一步吧。 主要是以我有實作的 github 當作例子,所以比...
前情提要 昨天大致上講解了 tokenizer 的部分,這是 LLM 的第一步,但現在這部分很方便直接套用就行。 0. 複習 在開始之前先複習一下高中數學,不管...
前情提要 昨天花了很多時間在介紹 embedding 跟弱化的 softmax(XX^T)X,如果昨天了解個大概那今天就不太會有問題。 文章參考及圖片來源: h...
前情提要 昨天分步驟講解如何實作 self-attention,如果照著步驟依序思考,相信你應該了解大概。 參考文章: https://www.cnblogs....
前情提要 昨天一樣分步驟講解了 MHA 的運算,怕篇幅太長大腦過載,所以將程式放到今天。 1. 實作 複習一下 self-attention 程式步驟 定義最...
前情提要 昨天一樣分步驟將 Multi-head attention 程式講解完了,比較麻煩是維度處理,但如果看懂就沒有太大問題了。 參考文章: https:/...