上一篇我們有提到 over-fitting,在進行深度學習訓練時,經常需要大量的資料以確保訓練時不會產生過度擬合(over-fitting)的現象,然而在現今數位時代,很難擁有足夠的資料(因為要完成訓練需要上萬筆 data 才能有較好的結果),因此我們會採取如下的作法:
使用 Data augmentation 技術。
這邊所要介紹的是 Data augmentation 資料增強!
不同於 Dropout 透過丟棄一定比例的神經元以模擬不同的dataset,Data augmentation 則是從既有的 dataset 中產生更多的資料讓系統去學習,說更直接一點,是創造更多的「假」資料,來彌補我們資料不足的缺憾。
雖然說是假的資料,但也是從原始資料內容修改產生的,因此Data augmentation 經過證實的確可解決資料不足的困境並提昇系統訓練的準確率!
一張圖片經過旋轉、調整大小、比例尺寸,或者改變亮度色溫、翻轉等處理後,我們人眼仍能辨識出來是相同的相片,但是對機器來說那可是完全不同的新圖像了。
因此, Data augmentation 就是將 dataset 中已有的圖片加以修改變形,創造出更多的圖片來讓機器學習,彌補資料量不足的困擾~
dataset 的資訊:
每張圖片都分為四個區域並給予 label:由左上角座位開始順時間方向 → 1代表有人,0代表無人,因此,這張圖 label 為 1-1-0-1。
加入 data augmentation :增加一個調整曝光值的 function,讓 data augmentation 能產生各種不同亮度的相片作為新圖片來使用。