樓主如果是使用supervised learning,資料不用排除,除非是資料蒐集錯誤,只要是真實資料,都 應該留著。
如果樓主是用Neuron network supervised learning 就算是突發狀況,只要這些突發狀況資料量不要太大,都不會影響深度學習。樓主不需要擔心。
如果貿然刪除任何資料,人為的保留,反而容易造成overfitting。
比方學一個簡單函數,研究顯示加一點error,反而會更好學。
有問題再討論
Outlier 發生原因很多:
要找出Outlier有很多種: