這系列文章來自對一個知名面試題目的有感而發:「從瀏覽器網址列輸入網址、按下 Enter 後會發生什麼事?」
繼前一篇將一段句子分成一個個小分詞,接下來要將這些分詞轉換成數學空間裡的向量。 Token Id Embedding 將語意投射進不同維度 前情提要 當拆解為...
繼前一篇我們將分詞可以轉為能對應到想要的維度 embedding。 Self Attention: 簡化版的注意力機制 前情提要 我們將 token 轉為某...
可訓練權重 前情提要 Token 本身的視角 (Query):「寫」這個字,應該要在乎什麼樣的資訊? Token 以外的視角 (Key):哪些文字會跟...
前一篇介紹了可訓練權重,接下來是注意力機制中的特殊存在,因果注意力。標準版注意力的實做,會將注意力放在所有的前後文,但因果注意力,會只將注意力投入在上文而不包含...
現行的注意力機制不單只計算一次上述的注意力,而是分頭進行多次計算,並使用不同的投射來重複執行。 最簡單的多頭注意力 透過 Module List 並傳入 num...
在前文 Attention 之前,都是用小參數來示意整個流程,接著,接下來要來嘗試完整的建立一個 Model Class。 首先先定義一個 GPT 中,我們會需...
Layer normalization 這一層實做的目的,是希望可以讓神經網路層的輸出調整到平方差為 1 平均值為 0。因為每一層的神經網路經過訓練,可能訊號會...
Shorted Connection 在神經網路中,會有好多層的 Linear + GELU 神經網路反覆計算著結果,而在這個過程中會發生梯度消失的狀況。為什麼...
組裝 Transformer 隨著這幾天的逐步逐步的實做,目前一個 Transformer 模組中要有的元素都已經有了,下一步是要將許多 Transformer...
雖然花了很多篇幅在介紹 Transformer 模組,但到現在其實我們都沒有在訓練它,只是將架構給建立了起來。後續要為這個架構建立一個評估方式,並讓他持續學習直...