今天我們介紹 SwinIR 相關的內容,SwinIR是一個用於影像重建的方法,本日內容包含:什麼是SwinIR、SwinIR的演算法、及SwinIR的特色。
SwinIR 是基於 Swin Transformer 架構的重建演算法,不同於以往的做法,是透過結合卷積神經網路 ( Convolution Neural Network, CNN ),加上 Transformer 的方式,就能以少量參數的方式,達成原本相當的效果。Swin Transformer 是基於 Vit ( Vision Transformer ) 的改良版本,主要改進了運算方式,降低了參數量,其作法是透過切割卷積,降低了萃取特徵的範圍,並透過滑窗 ( Slide Windows ) 對同個卷積構建相對關係,另外也構建了局部注意力機制 ( Local Attention ),避免原始 Transformer 過於關注全局特徵而忽略了局部細節。
先上架構圖,如下所示。
主要分為三個模組,分別是:淺層特徵提取、深度特徵提取、及影像重建的模組。
SwinIR 以淺層特徵提取、深度特徵提取、及高解析度重建的模組為基底,融合了卷積神經網路及Transformer兩者的優點,可以透過以少量參數的方式,達成高解析度圖像修復的效果,相較於以往像是LR、ESRGAN、Real-ESRGAN等方法,表現都更為突出,將架構分為淺層及深層提取的方式可以滿足各種範圍特徵提取的需求,並在其中引入了殘差架構,可以讓特徵更好的傳遞到影像重建的模組上。
今天我們介紹了關於 SwinIR 的內容;例如,什麼是SwinIR、SwinIR的演算法、及SwinIR的特色,明天會介紹 SD 進階的使用方法,明天見!