資料處理
圖片樣本數
資料不平衡
有些字的圖片張數較少,例如"仙"只有14張,而丁有100張,送入模型訓練時會有比例不同的問題。
例如"士"跟"土",若"土"的圖片較多,那"士"很有可能常態性的會被辨認為"土"。
解決方法
模型訓練
在訓練模型的時候發現,學習率非常重要,因為模型很容易落在局部最佳或者鞍點,若使用正確的更新學習率方式,可以避免出現此情況。
模型訓練固然重要,但資料清洗和樣本數及比例平衡才是王道。前幾名的組別,樣本數都是我們的好幾倍,他們的模型也都跟我們一樣,但是練出來就是準確度比較高。
多參加比賽,一次比賽就可以從中學到很多東西,看書搭配實作,進步更加神速。