首先先把a1乘上Wq,就會得到q1,q的意思是query,也就是查詢的意思
a2乘上Wk,會得到k2,這個k就是key的意思
將這兩個值做內積之後會得到alpha1,2,就可以知道這兩個vector之間的相關聯性,這個關聯性也有一個稱號,叫做attention score
a3跟a4也做跟a2一樣的事情,就分別算出alpha1,3,alpha1,4這兩個相關聯性
另外a1也會跟自己計算相關聯性,得到alpha1,1
那這邊我們在使用softmax來計算a'1,1,a'1,2,a'1,3,a'1,4
在經過前人很多嘗試之後,像是relu之類的,發現softmax的效果最好
根據這個alpha,我們已經知道那些向量是跟a1最有關係的,接下來我們要根據這個attention的分數來抽取資訊
將a1,a2,a3,a4分別乘上Wv,會得到v1,v2,v3,v4
接著將v1,v2,v3,v4分別乘上a'1,1,a'1,2,a'1,3,a'1,4,再將這些值加起來,就會得到b1,只要哪一個alpha的權重比較大,最後得到b1的之後就會比較接近那一個值
所以這邊就講了要怎麼用一整個sequence,得到b1