我們已經學會了運用畫出圖表的方式來檢視模型的訓練過程,有時候圖表曲線所呈現的結果相當理想,和我們預想的情況相差不大,但也有時候會出現比較有趣的特殊情形,彷彿在告訴我們模型的訓練有些異常,今天就來簡單介紹兩種模型訓練可能出現的特別現象。
在我們用AI做機器學習並進行辨識及預測時,就不能不提到兩個專有名詞:Overfitting與Underfitting。
-
Overfitting,又稱為擬合過度或過擬合現象:講白話即是過度的學習訓練資料,顯示你把模型訓練得太好了,而這裡所謂訓練得太好了的原因,可能是訓練資料不足,或是不具有多樣性,甚至是訓練的次數過多或是太過徹底,導致這個模型只對於訓練資料集內的數據有高準確率,但是對於未知的事物和數據則表現得特別差,就像是世界上狗的種類有那麼多,你的資料庫中卻只有黑色與白色的狗,一旦遇上花色的就完全認不出來。
- 恰巧相反的則是Underfitting,又稱作擬合不足:顯示這個模型可能尚未訓練完全,或是訓練的次數不足就開始對未知的數據做預測,導致準確度大幅降低,換句較淺顯的話來說,就好比請一群小學生去做AI預測一樣,準確度明顯偏低。
因此,我們在機器學習的過程當中,若要避免或是減輕上述兩種狀況的發生,在資料庫的收集時,就要注意儘量包含該群組的多樣性與豐富性,但是又不能包含太多細節,要給AI深度學習程式一些些的模糊空間,才會給未知的部分做出更準確的判讀。