特徵工程 in 30 days :: 2019 iT 邦幫忙鐵人賽

renton_hsu (renton_hsu)

iT邦見習生 ‧ 點數 98

AI4KidsPython資料科學工程師 Vancouver Film SchoolVFX & Animation

16707

累計瀏覽數

11人

在追蹤

站內簡訊追蹤

鐵人檔案

2019 iT 邦幫忙鐵人賽

回列表

AI & Data

特徵工程 in 30 days 系列

常在傳統機器學習的領域聽到"Garbage in, garbage out."這句話，意思是如果以資訊含量極低的特徵來訓練模型，則模型的輸出必然也是沒有價值的。要達到打造精準的機器學習預測模型，必然先對特徵工程下一番功夫。我將在這30天內複習入門觀念到深入特徵工程的主題，並且透過Kaggle的過往線上競賽所提供之資料集來做學習成果的驗證。

參賽天數 22 天｜共 23 篇文章｜ 49 人訂閱訂閱系列文 RSS系列文

0 Like 0 留言 2937 瀏覽

DAY 10

[改善資料品質]Part-2 面對缺漏值的對策 Coding實例

本篇對[改善資料品質]階段性的Coding實例，方便學習的朋友能一次看到目前的進度以coding演示。首先匯入需要的模組 from functools imp...

2018-10-13 ‧ 由 renton_hsu 分享

0 Like 0 留言 2690 瀏覽

DAY 11

[改善資料品質]Part-2 面對缺漏值的對策 Coding實例-B

接續昨天的初版特徵，用隨機森林的模型訓練後於Kaggle上的分數為73.54%準確率。雖然不差，但還有許多改善空間。分數不佳的原因在於前一篇文章中採用的處理缺漏...

2018-10-14 ‧ 由 renton_hsu 分享

0 Like 0 留言 7470 瀏覽

DAY 12

[改善資料品質]Part-3 正規化與標準化資料-Intro

到目前為止，已經知道識別數據類型以及資料缺漏的問題，也實際見識填補資料數據的方法。現在將探討的是正規化與標準化資料，也是增強機器學習流程的方法之一。讓我們從一...

2018-10-15 ‧ 由 renton_hsu 分享

0 Like 0 留言 27022 瀏覽

DAY 13

[改善資料品質]Part-3 正規化與標準化資料_Z-score normalization

最常見的正規化技術，Z-score normalization，背後有著簡單的統計概念。Z-score normalization的結果是被重新縮放以具有平均為...

2018-10-16 ‧ 由 renton_hsu 分享

1 Like 0 留言 15334 瀏覽

DAY 14

[改善資料品質]Part-3 正規化與標準化資料_Min-max scaling

Min-max scaling與z-score normalization同樣有著一組公式:m = (x -xmin) / (xmax -xmin) 在此公式中...

2018-10-17 ‧ 由 renton_hsu 分享

0 Like 0 留言 5865 瀏覽

DAY 15

[改善資料品質]Part-3 正規化與標準化資料_Row normalization

Row normalization 最後一個正規化方法是按行(row)而不是逐個列(欄位)進行。此標準化技術將確保每行數據都具有一樣的範數(Norm)，聽起來很...

2018-10-18 ‧ 由 renton_hsu 分享

1 Like 2 留言 2507 瀏覽

DAY 16

[改善資料品質]Put all together == Titanic challenge top 6%

驗證現有的知識從鐵人賽旅程的一開始到現在也經過15天，賽程的一半了。回頭看看這段時間因為寫文的關係，複習了不少特徵工程的知識。因此昨天找了一空檔時間，來進行t...

2018-10-19 ‧ 由 renton_hsu 分享

0 Like 0 留言 2325 瀏覽

DAY 17

[改善資料品質]Part-3 建構新的表徵-intro

今天將介紹的是在現有的資料內新增表徵，可以理解為手上有一張從資料庫的table內撈出的資料紀錄，我們則手動在這筆資料內新增欄位。新增表徵的用意是什麼、表徵的值從...

2018-10-20 ‧ 由 renton_hsu 分享

0 Like 0 留言 7723 瀏覽

DAY 18

[改善資料品質]Part-3 建構新的表徵-編碼類別表徵

我們如何讓機器學習算法來使用類別資料或說名目尺度的資料？簡單地說，我們需要將這些分類的資料轉換成數字類型的資料。任何機器學習算法，無論是線性回歸還是利用KNN的...

2018-10-21 ‧ 由 renton_hsu 分享

0 Like 0 留言 3478 瀏覽

DAY 19

[改善資料品質]Part-3 建構新的表徵-將連續型數字類別編碼為類別

有時，我們也許會想將連續的數值資料轉換為分類資料。例如，titanic資料中Age欄位，我們可以將年齡這樣連續性的數值資料編碼成範圍;0-15兒童/15-30青...

2018-10-22 ‧ 由 renton_hsu 分享

renton_hsu的鐵人檔案

renton_hsu的收藏

renton_hsu的追蹤

renton_hsu的Like

renton_hsu的紀錄

renton_hsu的訂閱列表

鐵人檔案

特徵工程 in 30 days 系列

標記使用者