分享至
目前希望透過機器學習預測生產數據的產出量,但是歷史數據中可能會發生當日有地震異常情形,導致機台數據與生產數據都偏低的狀況機器學習的訓練集是否需要排除該日的資料?還是這類的突發狀況也屬於機器需要學習的資料?
已邀請的邦友 {{ invite_list.length }}/5
樓主如果是使用supervised learning,資料不用排除,除非是資料蒐集錯誤,只要是真實資料,都 應該留著。如果樓主是用Neuron network supervised learning 就算是突發狀況,只要這些突發狀況資料量不要太大,都不會影響深度學習。樓主不需要擔心。如果貿然刪除任何資料,人為的保留,反而容易造成overfitting。比方學一個簡單函數,研究顯示加一點error,反而會更好學。
有問題再討論
Outlier 發生原因很多:
要找出Outlier有很多種:
IT邦幫忙