Day 4 Matrix capsules with EM routing

2021 iThome 鐵人賽

DAY 4

AI & Data

Attention到底在關注什麼？系列第 4 篇

13th鐵人賽

guancioul

2021-09-04 18:02:55

967 瀏覽

分享至

前言

接續著昨天講到的EM routing，今天來將EM routing做進一步的解釋

EM routing

將向量的輸入輸出改為使用矩陣來做運算處理，協議動態膠囊路由也需要替換成最大期望值演算法(expectation maximaiztion algorithm)，若在兩個姿勢向量(pose vector)中使用cosine做運算，並沒有辦法處理得非常好。最大期望值路由演算法(EM routing algorithm)會利用具有多層膠囊的膠囊網路讓其運作起來更有效率。

主要層的膠囊表示為 $\Omega_L$ ， $M$ 代表每一層膠囊的姿勢矩陣，而 $a$ 代表他的激活可能性。在 $L$ 層的膠囊 $i$ 和 $L+1$ 層的膠囊 $j$ 之間有一個可訓練的轉移權重矩陣(Transformation weight matrix) $W_{ij}$ 。最大期望值(EM)是 $i$ 膠囊的姿勢矩陣和轉移權重矩陣的姿勢矩陣在 $L+1$ 層的膠囊 $j$ 的投票結果。這個投票結果是由輸出矩陣 $M_i$ 和轉換矩陣 $W_{ij}$ 相乘而得。

$V_{ij}=M_i W_{ij}$

以下用圖解來解釋

假設pose matrix是一個4x4的矩陣，W也會是一個4x4的權重矩陣
我們將低層級的膠囊(前面的膠囊)的值丟給後面高層級的膠囊，就會得到更好的結果
中間的部分我們會透過某些方式對這些矩陣做處理
在這種膠囊網路的概念中routing的部分就會被Non-Linear Routing Procedure(程序)做一個取代
這邊訓練的方法，就會使用高斯混合模型（Gaussian mixture model，簡稱GMM）的方式做運算