iT邦幫忙

第 11 屆 iThome 鐵人賽

DAY 10
0

關於過度擬合(overfitting),我有些忘記當初記下這個key word是爲什麼....

過度擬合指的是一群不合理的資料集(或是含有不合理資料的),因為模型的過度訓練,而導致能夠匹配資料。但因為資料並非常態資料,存在偏異,所以這個符合資料的模型,並不通用,具有高度的侷限性,是個荒謬的模型。

一般來說,會想要避免過度擬合,通常可以通過交叉驗證、提早停止、赤池資訊量準則或模型比較來避免。資料探看會將資料分成訓練資料集和測試資料集的的原因,就是不要讓模型太過匹配測試資料,而能夠更客觀的看到目標。

反倒是....

在課程中說過,機器學習會傾向將離群值的異常資料加入訓練,去學習離群值的特徵,這應該會造成過度擬合。由於課程中,並沒有對過度擬合談論太多,如今這樣重新想過,也不太符合我過往的訓練。

維基百科上也這麼寫到:

在統計和機器學習中,為了避免過適現象,須要使用額外的技巧(如交叉驗證、提早停止、貝斯資訊量準則、赤池資訊量準則或模型比較),以指出何時會有更多訓練而沒有導致更好的一般化。
人工神經網路的過適過程亦被認知為過度訓練(英語:overtraining)。在treatmeant learning中,使用最小最佳支援值(英語:minimum best support value)來避免過適。

可能因為主要著重的在於人工神經網路這塊,那麼過度擬合也就好了解了。


上一篇
混淆矩陣
下一篇
IPython、bpython
系列文
又LAG的ML學習筆記32
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言