iT邦幫忙

第 11 屆 iT 邦幫忙鐵人賽

DAY 29
0
AI & Data

學習PHP Machine Learning的冒險歷程系列 第 29

[2020鐵人賽Day29]邂逅PHP Machine Learning-資料清洗

前言

資料清洗有多們重要呢?我也不知道,但是我看了一些文章去了解它。
機器學習之資料清理經驗
機器學習中的資料清洗與特徵處理綜述
機器學習之資料預備、清洗與特徵工程

簡單來說,如果你不要你的模型爆掉或者梯度爆炸,最好可以剔除異常或極端的數值,所以需要做一些簡單的資料清洗。

實作

我簡單用PHP-ML去除相似數值,讓資料可以分布的不要太過集中而影響成果。

use Phpml\FeatureSelection\VarianceThreshold;
$samples = [[0, 0, 1], [0, 1, 0], [1, 0, 0], [0, 1, 1], [0, 1, 0], [0, 1, 1]]; 

// 取一個斜方差閥值,將相似性比較高的刪除。
$transformer = new VarianceThreshold(0.8 * (1 - 0.8));

// 將Sample放置於前處理函式
$transformer->fit($samples);
// 轉換 
$transformer->transform($samples);

結語

機器學習的分享到一段落,如果還對這方面很感興趣的話,可以繼續鑽研下去,畢竟後續的整合與學習都非常的重要。


上一篇
[2020鐵人賽Day28]邂逅PHP Machine Learning-儲存模型
下一篇
[2020鐵人賽Day30]邂逅PHP Machine Learning-堅持完賽
系列文
學習PHP Machine Learning的冒險歷程30

1 則留言

0
電腦達人
iT邦新手 5 級 ‧ 2020-03-18 11:07:06

我簡單用PHP-ML去除相似數值,讓資料可以分布的不要太過集中而[影像]成果。

應該是響不是像

Old Siao iT邦研究生 1 級 ‧ 2020-04-08 14:21:03 檢舉

筆誤手殘,謝謝大大幫抓錯字/images/emoticon/emoticon37.gif

我要留言

立即登入留言