昨天講到Self-attention會產生三種矩陣
由於所有的k都要跟q1做矩陣相乘,因此我們可以把k1~k4做成一個大的矩陣,再去跟q1相乘,這樣就可以一次得到q1的所有alpha值
那如果我們把q1到q4都組合起來,去跟k1~k4的轉置矩陣做相乘,就會得到所有需要的alpha值,再將這些值做softmax的處理,就會得到經過Activation function的矩陣
將經過Activation function的矩陣和v1~v4做相乘,就會得到我們最終要的結果,b1~b4
所以self-attention的運算基本上就是利用矩陣的計算來完成的
I是input的矩陣,分別乘上Wq、Wk、Wv,得到QKV這三個矩陣
我們再把Q乘上K的轉置,就會得到A這個矩陣,經過Activation Function後2的矩陣,稱為Attention Matrix
將Attention Matrix跟V做相乘,就會得到O這個矩陣,O就是我們最後所需要的輸出
在這一連串的計算中,只有Wq、Wk、Wv這三個矩陣是需要被訓練的
今天的進度先到這邊,明天會整理之前打的東西,並且將Attention的部分結束掉