前面介紹的方法是one head的方法,這邊要來講multi-head
在某些情況下,multi-head的結果可能會比one head來的好,例如說翻譯
這邊來介紹multi-head的計算方法
將原先的q、k、v分別乘上兩個不同的矩陣,會得到qi,1,qi,2
k跟v也做一樣的操作
會得到下面的圖
另外一個input也做相同的操作
再來我們對1的部分做weight sum,會得到bi,1
再來我們對2的部分做weight sum,會得到bi,2
最後將結果再經過一個transform,得到bi後,就會在送入下一層
這就是multi-head的計算過程