iT邦幫忙

第 12 屆 iThome 鐵人賽

DAY 23
0
AI & Data

AI x 日常 x 30天系列 第 23

Epoch 23 - 超解析度 x VDSR

  • 分享至 

  • xImage
  •  

Accurate Image Super-Resolution Using Very Deep Convolutional Networks

Super-Resolution

先簡介一下Super-Resolution:超解析度
給定一個小的圖片,想要得到一張大並且清楚的圖片,
也可以稱為Sigle image Super-Resolution problem(SISR),
這個技術可以用在許多地方,例如手機拍照、監視器影像或是醫學影像之類的。
雖然SISR是一個蠻老的問題,但是現在仍然是熱門研究主題。

主要有幾個挑戰:
第一,因為圖片本來是低頻的,所以需要利用上下文相關資訊來估計高頻資訊,也就是圖片細節。
而且是一個ill-posed inverse的問題,沒有辦法找到唯一解。

介紹一下一些常見的方法,
除了早期的插值法,也會用自身相似度、統計的方式來做。
目前使用Deep learning比較多,例如SRCNN就是第一個採用深度學習來做的方法。

本文提出的方法主要是基於SRCNN,
但他們發現SRCNN侷限有三個,然後會說明本文如何解決

首先,SRCNN只有3層,receptive field不夠大,
然後使用context資訊來恢復細節時會切成小區塊,這樣很難獲得足夠的資訊去恢復,

本文將深度提高到20層,並且receptive field 提高到41x41,可以獲得很大的context。
為了保留更多資訊,也沒有使用pooling層,所以 input 跟 output size 一樣。

再來就是Training,SRCNN是直接在HR圖片建model,
主要分為兩個目的,第一是把input 帶到最後一層並重建residuals,
會花費大量時間在訓練auto-encoder,導致收斂速率大幅下降,
而且他們learning rate設很低,所以要花將近一個禮拜的時間才可能收斂。

本文則採用了兩個方法來加速收斂:

  1. 首先本文是在residual network建model,
    因為HR 可分解為低頻訊息(LR) 和 高頻訊息(residual image details)
    所以input 和 output 享有相同的低頻訊息,
    因為這個residual 就是HR 和 LR的不同之處,比起直接拿HR和LR學習速率更快。

  2. Gradient clipping
    限制梯度範圍,避免梯度消失或是爆炸。
    學習速率比SRCNN快1000倍,只要4個小時即可完成20層的訓練,並且結果更加精確

最後SRCNN是針對單一的scale訓練,如果有一個新的scale就要重新train一次,很沒效益。
本文方法可以有效處理各種scale的SR問題,而且表現還不錯,
他們在訓練時,使用許多不同size的圖片來訓練,所以訓練出來的model可以適用於各種scale的SR,
甚至是小數scale的SR。


model 結構蠻簡潔的,除了第一層輸入,和最後一層重建,其他層類型都一樣: 3x3x64 filter
以LR圖片做作為圖片輸入後,來預測圖片細節,最終LR + residual image = HR

Experiments and Results


可以看到,在相同learning rate下,Residual network 更快達到 state-of-the-art 的水準。


可以看到本文的方法,在不同的dataset上,無論在執行時間或是精確度上都超越了先前的方法,PSNR越大表示越好


這是運行時間跟表現的圖,更容易看出與其他方法的差距。

一些範例,可以很明顯看出本文方法的改進。


上一篇
Epoch 22 - 論文筆記 x BagNet
下一篇
Epoch 24 - 超高速人體分割(human segmentation)
系列文
AI x 日常 x 30天30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言