又到了總結篇。CV 其實個人涉略比起 NLP 少很多,但希望看完這個子系列還是能對 deep learning 在 CV 的應用有大致的概念。下一個子系列會短一些,介紹概念非常有趣跟有彈性,但實作起來相當困難的 reinforcement learning。
同樣的,我們總結一下,接著介紹一些 CV tasks 和發展方向。
2009 年釋出的 ImageNet 和後來 deep learning 在 CV 領域的興起息息相關。一時之間,大家都在努力加大、加深自己的 model,發現比起傳統方法,訓練在 big data 上的 CNN 效率跟成績更勝以往。
Convolutional + activation + pooling 的疊疊樂成為標配,這樣的架構也成功訓練在許多不同的應用任務上。甚至在 NLP task 都能用 CNN 抽取文字結構的特徵,同樣的 RNN 和 BERT 也能大力協助和文字相關的 CV task 或 video 等等任務。
2014 年,效果驚人的 GAN 提出後,在整個學術界蔚為風潮了好幾年,上百種不同的 GAN model 被提出,許多任務從圖像生成、風格轉換、甚至語言生成都有了新樣貌。
CV 的觸角理所當然的伸進了自駕車領域。自駕車中的幾個關鍵技術有了 deep learning 的加入,發展的可能性又更多了一些,而投入自駕車技術也成為鑽研 CV 領域的人熱門的選擇。
接下來就來看一下 CV 還有哪些有趣的 task,以及未來發展的難題。
CV 領域的相關任務族繁不及備載,提供簡單的概覽:
還有非常多任務,很多都包含在上面這些任務底下。
那 CV 接下來的發展,還有哪些難題呢?
和 NLP 領域一樣,只要有 data,就會有 bias 的問題。
—— 不同膚色女性的人臉辨識錯誤率。顯然在 training data 中,黑人女性較少出現。[1]
—— 這跟把擔擔麵預測成 spaghetti 一樣讓人憤怒啊![1]
如何有意識的讓 data 更平衡更透明,一直是各個領域正在持續努力的課題。有興趣可以參考 [1] 提供的更多例子。
3D 圖像是很多應用領域的基礎,從機器人、自駕車,到 AR、醫療領域,就算現在 CV 在 2D image 有不錯的進展,在 3D 的世界卻會遇到新的難題。在 2D 世界漸漸被拓荒成功以後,近幾年 3D 的課題相對越來越火熱。
3D deep learning 會有哪些不同的難題呢?
3D 世界的 CV 還存在非常多可能性,對 2D 世界感到太小兒科想挑戰自己的話,那 3D 世界應該可以滿足你。[2] 有介紹一些 3D deep learning 的研究成果,可以參考入門。
另一個也算是多一個維度的任務就是 video,不過多的是時間維度,挑戰性也不亞於 3D deep learning,且娛樂性極高。
很多任務都是 2D 圖像的延伸,例如自駕車 object detection 變成 real-time、需要更多張連續圖片做的動作分析、video captioning 等等。雖然說可以從 2D 圖像任務的 model 延伸到 video 可以比較有頭緒,但多了時間維度,整個 input 的 feature extraction 方式可以完全不同,也增加了許多挑戰性。
另一個難題是一般 image dataset 已經很巨大,而 video dataset 資料量又更巨大了。如何節省資源訓練出高效的 model 也是 video 中特別重要的問題。
[3] 有簡單介紹一些 model,也可以當作參考。