Day 12 Self-attention(六) Multi-Head Self-attention - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2021 iThome 鐵人賽

DAY 12

0

AI & Data

Attention到底在關注什麼？系列第 12 篇

Day 12 Self-attention(六) Multi-Head Self-attention

13th鐵人賽

2021-09-12 23:28:12

2482 瀏覽

分享至

Multi-Head Self-attention

前面介紹的方法是one head的方法，這邊要來講multi-head
在某些情況下，multi-head的結果可能會比one head來的好，例如說翻譯

這邊來介紹multi-head的計算方法

將原先的q、k、v分別乘上兩個不同的矩陣，會得到qi,1，qi,2
k跟v也做一樣的操作
會得到下面的圖

另外一個input也做相同的操作

再來我們對1的部分做weight sum，會得到bi,1

再來我們對2的部分做weight sum，會得到bi,2

最後將結果再經過一個transform，得到bi後，就會在送入下一層
這就是multi-head的計算過程

Day 11 Self-attention(五) KQV矩陣整理

Day 13 Self-attention(七) Positional Encoding、self-attention和其他model的比較

系列文

Attention到底在關注什麼？共 30 篇

目錄

RSS系列文訂閱系列文

8 人訂閱

完整目錄

熱門推薦

{{ item.subject }}

{{ item.channelVendor }} | {{ item.webinarstarted }} |

{{ formatDate(item.duration) }}

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19861 篇

完賽人數

528 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

趣味SQL 260224 時間區間重疊偵測與合併

IT邦幫忙