iT邦幫忙

2021 iThome 鐵人賽

DAY 5
0
AI & Data

Attention到底在關注什麼?系列 第 5

Day 5 Capsule的應用(上)

前言

由於前幾天講了capsule network,attention的筆記我還在製作,因此先來講講capsule的應用,這個應用是在CVPR上的一篇論文
Visual-textual Capsule Routing for Text-based Video Segmentation

介紹

這篇論文的主要目的是角色及動作的影像切割技術,這是什麼意思呢?
就是將一個影片和一段自然語言的句子當作輸入,目標輸出是句子描述的角色像素級別的位置

K. Gavrilyuk, A. Ghodrati, Z. Li, and C. G. Snoek, "Actor and action video segmentation from a sentence," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 5958-5966.

那甚麼是像素級別的位置?
圖中有三個描述

  1. 穿著黑色套裝的男人站在後面
  2. 這隻狗在參加敏捷比賽
  3. 穿著白色上衣的人跟著狗一起跑

一般的標註會是使用邊界,像是上圖的方式,但像素級別的標註,會像是這樣

這種標註的應用可以用在很多地方

  1. 視訊檢索
  2. 人機互動
  3. 監視系統

架構


從整體來說,對於給定的影片,我們的目標是去圈出文字描述的角色和動作。

簡單的看本文的架構,先從文本和影片提取膠囊網路
使用視覺-文本路由演算法(Visual-Textual Capsule Routing)來創建更高級別的膠囊
並且用這個膠囊進一步定位選擇的演員和動作。

Visual-Textual Capsule Routing

https://chart.googleapis.com/chart?cht=tx&chl=V_%7Bsj%7D是一個句子相關的vote,是基於pose matrix Ms和https://chart.googleapis.com/chart?cht=tx&chl=T_%7Bsj%7D是指句子的Transformation matrices 相乘
W和H是指當偵的寬度與長度
https://chart.googleapis.com/chart?cht=tx&chl=V_%7Bvj%7D是一個句子相關的vote,是基於pose matrix https://chart.googleapis.com/chart?cht=tx&chl=M_v%5Bx%2Cy%5D和Tvj是指句子的Transformation matrices 相乘
https://chart.googleapis.com/chart?cht=tx&chl=A_shttps://chart.googleapis.com/chart?cht=tx&chl=a_v%5Bx%2Cy%5D則是句子和影像的激活值
{}則是這兩個值得聯集
最後將聯集後的vote和激活值丟進EM Routing中
就可以得到https://chart.googleapis.com/chart?cht=tx&chl=c_j%5Bx%2Cy%5D
整張影像都處理完後就會得到完整的https://chart.googleapis.com/chart?cht=tx&chl=c_j


上一篇
Day 4 Matrix capsules with EM routing
下一篇
Day 6 Capsule的應用(下)
系列文
Attention到底在關注什麼?30

尚未有邦友留言

立即登入留言