關於過度擬合(overfitting),我有些忘記當初記下這個key word是爲什麼....
過度擬合指的是一群不合理的資料集(或是含有不合理資料的),因為模型的過度訓練,而導致能夠匹配資料。但因為資料並非常態資料,存在偏異,所以這個符合資料的模型,並不通用,具有高度的侷限性,是個荒謬的模型。
一般來說,會想要避免過度擬合,通常可以通過交叉驗證、提早停止、赤池資訊量準則或模型比較來避免。資料探看會將資料分成訓練資料集和測試資料集的的原因,就是不要讓模型太過匹配測試資料,而能夠更客觀的看到目標。
反倒是....
在課程中說過,機器學習會傾向將離群值的異常資料加入訓練,去學習離群值的特徵,這應該會造成過度擬合。由於課程中,並沒有對過度擬合談論太多,如今這樣重新想過,也不太符合我過往的訓練。
維基百科上也這麼寫到:
在統計和機器學習中,為了避免過適現象,須要使用額外的技巧(如交叉驗證、提早停止、貝斯資訊量準則、赤池資訊量準則或模型比較),以指出何時會有更多訓練而沒有導致更好的一般化。
人工神經網路的過適過程亦被認知為過度訓練(英語:overtraining)。在treatmeant learning中,使用最小最佳支援值(英語:minimum best support value)來避免過適。
可能因為主要著重的在於人工神經網路這塊,那麼過度擬合也就好了解了。