DAY30：賽後心得檢討

2021 iThome 鐵人賽

DAY 30

自我挑戰組

資料分析及AI深度學習-簡單基礎實作系列第 30 篇

13th鐵人賽

Frank

2021-10-15 00:30:52

1393 瀏覽

分享至

完賽檢討

資料處理
- 雖然我們有大致上把紅框等雜訊去除掉，但我們還是沒有完全把照雜訊清除乾淨。
- YoloV4去框中文字，可是有些圖片會被框失誤，會浪費幾張框錯的圖片，有組別是完全用手動去裁切字，雖花較多時間，但是效果會比較好，就是所謂人工智慧前的工人智慧啦。
- 人工標籤中文字的label的時候，還是有眼花標籤錯的時候，例如＂士＂標成＂土＂等等。雖然筆數不多，但多少都會對模型帶來影響。
圖片樣本數
- 圖片樣本數原圖約快70000張，我們用mask的方式，給文字加上黑色方塊，增加至約18萬張。但樣本數還是不夠，有組別提出增加圖片的方式，用文字搭配空白合成圖片的方式，如下圖，甚至第一名的組別用GAN去讓電腦自動生成很像真實圖片的合成圖片（GAN方法我們還在研究中），這樣可以輕鬆增加大量樣本數。
資料不平衡
- 有些字的圖片張數較少，例如＂仙＂只有14張，而丁有100張，送入模型訓練時會有比例不同的問題。
- 例如＂士＂跟＂土＂，若＂土＂的圖片較多，那＂士＂很有可能常態性的會被辨認為＂土＂。
- 解決方法
  - 利用上述所說的合成圖去增加張數較少的字的樣本數，例如每個字都補足200張。
  - 或者隊友實測(傳送門)，可以用keras內建的Keras class_weight（類別權重）去調整。模型訓練時，樣本較多的類別，權重低；樣本較少的類別，權重高。
模型訓練
- 首先硬體部分要先滿足，當樣本數更大量時，一個模型可能要練半天到一天都有可能。
- 在優化器搭配學習率的部分可以多加嘗試，我個人都使用SGD優化器加上CosineAnnealing（餘弦退火）去訓練，但或許有更好的組合。
- 可以多嘗試各種模型，例如我們組別練過VGG19、Xception、InceptionV4及DenseNet等等。