iT邦幫忙

2021 iThome 鐵人賽

DAY 28
1
Software Development

從林到有_Image processing系列 第 28

[D28] 資料增強

上一篇我們有提到 over-fitting,在進行深度學習訓練時,經常需要大量的資料以確保訓練時不會產生過度擬合(over-fitting)的現象,然而在現今數位時代,很難擁有足夠的資料(因為要完成訓練需要上萬筆 data 才能有較好的結果),因此我們會採取如下的作法:

  1. Review並重新組合或調整model架構。
  2. 將資料進行正規化,如L1/L2 regularization。
  3. 使用dropout技術。
  4. 使用 Data augmentation 技術。

這邊所要介紹的是 Data augmentation 資料增強!

概念

不同於 Dropout 透過丟棄一定比例的神經元以模擬不同的dataset,Data augmentation 則是從既有的 dataset 中產生更多的資料讓系統去學習,說更直接一點,是創造更多的「假」資料,來彌補我們資料不足的缺憾。

雖然說是假的資料,但也是從原始資料內容修改產生的,因此Data augmentation 經過證實的確可解決資料不足的困境並提昇系統訓練的準確率!

原理

一張圖片經過旋轉、調整大小、比例尺寸,或者改變亮度色溫、翻轉等處理後,我們人眼仍能辨識出來是相同的相片,但是對機器來說那可是完全不同的新圖像了。
因此, Data augmentation 就是將 dataset 中已有的圖片加以修改變形,創造出更多的圖片來讓機器學習,彌補資料量不足的困擾~

實際應用

dataset 的資訊:

  • [ ] 格式:jpeg,224 × 224 pixels
  • [ ] 相片日期:2017/04~2017/09
  • [ ] 分類:共有17種 categories,每個 category 有 70 張相片,共 1,190 張。

每張圖片都分為四個區域並給予 label:由左上角座位開始順時間方向 → 1代表有人,0代表無人,因此,這張圖 label 為 1-1-0-1。

加入 data augmentation :增加一個調整曝光值的 function,讓 data augmentation 能產生各種不同亮度的相片作為新圖片來使用。

  • 在未使用資料增強的情況下,成績僅為 0.69

    

  • 用資料增強後,成績上升到 0.85,使用 Data augmentation 讓成績大幅提昇了23%!

圖片來源


上一篇
[D27] 物件偵測(8)
下一篇
[D29] 檢測框的精準度
系列文
從林到有_Image processing30

尚未有邦友留言

立即登入留言