資料清洗有多們重要呢?我也不知道,但是我看了一些文章去了解它。
機器學習之資料清理經驗
機器學習中的資料清洗與特徵處理綜述
機器學習之資料預備、清洗與特徵工程
簡單來說,如果你不要你的模型爆掉或者梯度爆炸,最好可以剔除異常或極端的數值,所以需要做一些簡單的資料清洗。
我簡單用PHP-ML去除相似數值,讓資料可以分布的不要太過集中而影響成果。
use Phpml\FeatureSelection\VarianceThreshold;
$samples = [[0, 0, 1], [0, 1, 0], [1, 0, 0], [0, 1, 1], [0, 1, 0], [0, 1, 1]];
// 取一個斜方差閥值,將相似性比較高的刪除。
$transformer = new VarianceThreshold(0.8 * (1 - 0.8));
// 將Sample放置於前處理函式
$transformer->fit($samples);
// 轉換
$transformer->transform($samples);
機器學習的分享到一段落,如果還對這方面很感興趣的話,可以繼續鑽研下去,畢竟後續的整合與學習都非常的重要。
我簡單用PHP-ML去除相似數值,讓資料可以分布的不要太過集中而[影像]成果。
應該是響不是像
筆誤手殘,謝謝大大幫抓錯字