iT邦幫忙

2021 iThome 鐵人賽

DAY 12
0
AI & Data

Attention到底在關注什麼?系列 第 12

Day 12 Self-attention(六) Multi-Head Self-attention

Multi-Head Self-attention

前面介紹的方法是one head的方法,這邊要來講multi-head
在某些情況下,multi-head的結果可能會比one head來的好,例如說翻譯

這邊來介紹multi-head的計算方法

將原先的q、k、v分別乘上兩個不同的矩陣,會得到qi,1,qi,2
k跟v也做一樣的操作
會得到下面的圖

另外一個input也做相同的操作

再來我們對1的部分做weight sum,會得到bi,1

再來我們對2的部分做weight sum,會得到bi,2

最後將結果再經過一個transform,得到bi後,就會在送入下一層
這就是multi-head的計算過程


上一篇
Day 11 Self-attention(五) KQV矩陣整理
下一篇
Day 13 Self-attention(七) Positional Encoding、self-attention和其他model的比較
系列文
Attention到底在關注什麼?30

尚未有邦友留言

立即登入留言