Day 5 Capsule的應用(上)

2021 iThome 鐵人賽

DAY 5

AI & Data

Attention到底在關注什麼？系列第 5 篇

13th鐵人賽

guancioul

2021-09-05 22:28:17

1354 瀏覽

分享至

前言

由於前幾天講了capsule network，attention的筆記我還在製作，因此先來講講capsule的應用，這個應用是在CVPR上的一篇論文
Visual-textual Capsule Routing for Text-based Video Segmentation

介紹

這篇論文的主要目的是角色及動作的影像切割技術，這是什麼意思呢?
就是將一個影片和一段自然語言的句子當作輸入，目標輸出是句子描述的角色像素級別的位置

K. Gavrilyuk, A. Ghodrati, Z. Li, and C. G. Snoek, "Actor and action video segmentation from a sentence," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 5958-5966.

那甚麼是像素級別的位置?
圖中有三個描述

穿著黑色套裝的男人站在後面
這隻狗在參加敏捷比賽
穿著白色上衣的人跟著狗一起跑

一般的標註會是使用邊界，像是上圖的方式，但像素級別的標註，會像是這樣

這種標註的應用可以用在很多地方

視訊檢索
人機互動
監視系統

架構

從整體來說，對於給定的影片，我們的目標是去圈出文字描述的角色和動作。

簡單的看本文的架構，先從文本和影片提取膠囊網路
使用視覺-文本路由演算法(Visual-Textual Capsule Routing)來創建更高級別的膠囊
並且用這個膠囊進一步定位選擇的演員和動作。

Visual-Textual Capsule Routing

$V_{sj}$ 是一個句子相關的vote，是基於pose matrix Ms和 $T_{sj}$ 是指句子的Transformation matrices 相乘
W和H是指當偵的寬度與長度
$V_{vj}$ 是一個句子相關的vote，是基於pose matrix $M_v[x,y]$ 和Tvj是指句子的Transformation matrices 相乘
$A_s$ 和 $a_v[x,y]$ 則是句子和影像的激活值
{}則是這兩個值得聯集
最後將聯集後的vote和激活值丟進EM Routing中
就可以得到 $c_j[x,y]$
整張影像都處理完後就會得到完整的 $c_j$