[D28] 資料增強

2021 iThome 鐵人賽

DAY 28

Software Development

從林到有＿Image processing系列第 28 篇

13th鐵人賽影像辨識資料增強 data augmentation

林酷妹

團隊NTUST HIS_LAB 有點東西

2021-10-13 11:26:28

3579 瀏覽

分享至

上一篇我們有提到 over-fitting，在進行深度學習訓練時，經常需要大量的資料以確保訓練時不會產生過度擬合（over-fitting）的現象，然而在現今數位時代，很難擁有足夠的資料（因為要完成訓練需要上萬筆 data 才能有較好的結果），因此我們會採取如下的作法：

Review並重新組合或調整model架構。
將資料進行正規化，如L1/L2 regularization。
使用dropout技術。
使用 Data augmentation 技術。

這邊所要介紹的是 Data augmentation 資料增強！

概念

不同於 Dropout 透過丟棄一定比例的神經元以模擬不同的dataset，Data augmentation 則是從既有的 dataset 中產生更多的資料讓系統去學習，說更直接一點，是創造更多的「假」資料，來彌補我們資料不足的缺憾。

雖然說是假的資料，但也是從原始資料內容修改產生的，因此Data augmentation 經過證實的確可解決資料不足的困境並提昇系統訓練的準確率！

原理

一張圖片經過旋轉、調整大小、比例尺寸，或者改變亮度色溫、翻轉等處理後，我們人眼仍能辨識出來是相同的相片，但是對機器來說那可是完全不同的新圖像了。
因此， Data augmentation 就是將 dataset 中已有的圖片加以修改變形，創造出更多的圖片來讓機器學習，彌補資料量不足的困擾～