今天介紹Gaze Estimation視線估計的論文,
Learning from Simulated and Unsupervised Images through Adversarial Training
這是Apple第一篇發表的AI論文,拿到2017 CVPR Best Paper,
論文主要的思路是,
我們都知道模型要學得好,訓練集需要越大,但是標注資料的成本很高。
所以有些會使用模擬器,合成大量資料,但合成資料和真實資料還是會有差距存在,
因此本文的目的是要訓練一個Refined網絡,
使得模擬器生成的合成圖片經改善後能更貼近真實圖片。
論文中提到,可能會產生artifact的原因是,
當我們只使用一個Discriminator時,Refiner為了要欺騙他,可能會過度強調某些global特徵,
進而使得Refined圖像出現不自然的artifact。
所以把他分割為w×h個小塊來看,限制Discriminator只能看這一小塊,去判斷是不是真實的圖片
最後再把所有小塊的loss加起來。
實驗結果比較,用global loss refined的圖片,在邊緣上有劇烈的抖動,
而採用local loss的就比較平滑,符合真實情況。
接下來是第二個問題,
隨著每一次迭代,Refined輸出的圖像是逐步變化的。
相應地,Discriminator能夠有效辨識的圖像也集中在當前的Refiner中。
左圖,不斷在某個區域反覆跳動,離目標很遠。
這導致兩個問題:
所以他引入了歷史信息,讓他可以記住以前學過的,越來越接近target
做法就是加入一個Buffer,
在每次batch中,有一半的data來自buffer,另一半來源於當前Refiner的輸出。
更新完後,用當前Refiner的輸出替換buffer中一半的樣本。
從實驗可發現,增加了這個歷史信息後,圖片改善效果有明顯的提高。
上列是合成數據,下列是refine過的合成數據。
比較了gaze估計在合成數據和 Refine過的合成數據(SimGAN的輸出)上訓練的性能,
可以看到有顯著的提升。