由於前幾天講了capsule network,attention的筆記我還在製作,因此先來講講capsule的應用,這個應用是在CVPR上的一篇論文
Visual-textual Capsule Routing for Text-based Video Segmentation
這篇論文的主要目的是角色及動作的影像切割技術,這是什麼意思呢?
就是將一個影片和一段自然語言的句子當作輸入,目標輸出是句子描述的角色像素級別的位置
K. Gavrilyuk, A. Ghodrati, Z. Li, and C. G. Snoek, "Actor and action video segmentation from a sentence," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 5958-5966.
那甚麼是像素級別的位置?
圖中有三個描述
一般的標註會是使用邊界,像是上圖的方式,但像素級別的標註,會像是這樣
這種標註的應用可以用在很多地方
從整體來說,對於給定的影片,我們的目標是去圈出文字描述的角色和動作。
簡單的看本文的架構,先從文本和影片提取膠囊網路
使用視覺-文本路由演算法(Visual-Textual Capsule Routing)來創建更高級別的膠囊
並且用這個膠囊進一步定位選擇的演員和動作。
是一個句子相關的vote,是基於pose matrix Ms和是指句子的Transformation matrices 相乘
W和H是指當偵的寬度與長度
是一個句子相關的vote,是基於pose matrix 和Tvj是指句子的Transformation matrices 相乘
和 則是句子和影像的激活值
{}則是這兩個值得聯集
最後將聯集後的vote和激活值丟進EM Routing中
就可以得到
整張影像都處理完後就會得到完整的