iT邦幫忙

鐵人檔案

2025 iThome 鐵人賽
回列表
生成式 AI

LLM 學習筆記 - 從 LLM 輸入問題,按下 Enter 後會發生什麼事? 系列

這系列文章來自對一個知名面試題目的有感而發:「從瀏覽器網址列輸入網址、按下 Enter 後會發生什麼事?」

參賽天數 24 天 | 共 24 篇文章 | 0 人訂閱 訂閱系列文 RSS系列文
DAY 11

Day 11. Embedding: 從做 LLM 中看怎麼將文字轉向量

繼前一篇將一段句子分成一個個小分詞,接下來要將這些分詞轉換成數學空間裡的向量。 Token Id Embedding 將語意投射進不同維度 前情提要 當拆解為...

2025-09-25 ‧ 由 minw 分享
DAY 12

Day 12. Self Attention: 從做 LLM 中看注意力機制

繼前一篇我們將分詞可以轉為能對應到想要的維度 embedding。 Self Attention: 簡化版的注意力機制 前情提要 我們將 token 轉為某...

2025-09-26 ‧ 由 minw 分享
DAY 13

Day 13. Scaled Dot-Product Attention: 從做 LLM 中看 query, key & value weight

可訓練權重 前情提要 Token 本身的視角 (Query):「寫」這個字,應該要在乎什麼樣的資訊? Token 以外的視角 (Key):哪些文字會跟...

2025-09-27 ‧ 由 minw 分享
DAY 14

Day 14. Causal Attention: 從做 LLM 中看因果注意力

前一篇介紹了可訓練權重,接下來是注意力機制中的特殊存在,因果注意力。標準版注意力的實做,會將注意力放在所有的前後文,但因果注意力,會只將注意力投入在上文而不包含...

2025-09-28 ‧ 由 minw 分享
DAY 15

Day 15. Multi-head Attention : 從做 LLM 中看多頭注意力

現行的注意力機制不單只計算一次上述的注意力,而是分頭進行多次計算,並使用不同的投射來重複執行。 最簡單的多頭注意力 透過 Module List 並傳入 num...

2025-09-29 ‧ 由 minw 分享
DAY 16

Day 16. Layer:從做 LLM 實做 GPT 架構

在前文 Attention 之前,都是用小參數來示意整個流程,接著,接下來要來嘗試完整的建立一個 Model Class。 首先先定義一個 GPT 中,我們會需...

2025-09-30 ‧ 由 minw 分享
DAY 17

Day 17. Layer Normalization & GELU:從做 LLM 實做 Feed Foward

Layer normalization 這一層實做的目的,是希望可以讓神經網路層的輸出調整到平方差為 1 平均值為 0。因為每一層的神經網路經過訓練,可能訊號會...

2025-10-01 ‧ 由 minw 分享
DAY 18

Day 18. Shorted Connection: 從做 LLM 避免梯度消失

Shorted Connection 在神經網路中,會有好多層的 Linear + GELU 神經網路反覆計算著結果,而在這個過程中會發生梯度消失的狀況。為什麼...

2025-10-02 ‧ 由 minw 分享
DAY 19

Day 19. Transformer: 從做 LLM 中完成第一版 GPT

組裝 Transformer 隨著這幾天的逐步逐步的實做,目前一個 Transformer 模組中要有的元素都已經有了,下一步是要將許多 Transformer...

2025-10-03 ‧ 由 minw 分享
DAY 20

Day 20. Cross-Entropy: 從做 LLM 中來看怎麼 Pre Train

雖然花了很多篇幅在介紹 Transformer 模組,但到現在其實我們都沒有在訓練它,只是將架構給建立了起來。後續要為這個架構建立一個評估方式,並讓他持續學習直...

2025-10-04 ‧ 由 minw 分享