iT邦幫忙

2021 iThome 鐵人賽

DAY 11
0
AI & Data

Attention到底在關注什麼?系列 第 11

Day 11 Self-attention(五) KQV矩陣整理

  • 分享至 

  • xImage
  •  

QKV矩陣

昨天講到Self-attention會產生三種矩陣

  • Q(query)
  • K(keys)
  • V(values)
    並且提到這三個矩陣是利用矩陣相乘的方法得到的
    接下來要提到alpha是怎麼利用矩陣做計算的

alpha計算

由於所有的k都要跟q1做矩陣相乘,因此我們可以把k1~k4做成一個大的矩陣,再去跟q1相乘,這樣就可以一次得到q1的所有alpha值

那如果我們把q1到q4都組合起來,去跟k1~k4的轉置矩陣做相乘,就會得到所有需要的alpha值,再將這些值做softmax的處理,就會得到經過Activation function的矩陣

將經過Activation function的矩陣和v1~v4做相乘,就會得到我們最終要的結果,b1~b4
所以self-attention的運算基本上就是利用矩陣的計算來完成的

複習前面講過的計算

I是input的矩陣,分別乘上Wq、Wk、Wv,得到QKV這三個矩陣

我們再把Q乘上K的轉置,就會得到A這個矩陣,經過Activation Function後2的矩陣,稱為Attention Matrix

將Attention Matrix跟V做相乘,就會得到O這個矩陣,O就是我們最後所需要的輸出

在這一連串的計算中,只有Wq、Wk、Wv這三個矩陣是需要被訓練的

今天的進度先到這邊,明天會整理之前打的東西,並且將Attention的部分結束掉


上一篇
Day 10 Self-attention(四) 要如何平行運算?
下一篇
Day 12 Self-attention(六) Multi-Head Self-attention
系列文
Attention到底在關注什麼?30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言