[Day 9] Anonymized data 匿名資料

11th鐵人賽 kaggle

1621 瀏覽

Anonymized data

匿名是保護資料免於用來找出真實資料的一種模式, 例如雜湊 hash 處理較敏感或機密的資料, 參賽者可透過合法的方式解匿名, 例如下面例子的 x1~x6 匿名特徵.

截圖自coursera

-猜測欄位意思
-猜測欄位類別

截圖自coursera

讀資料, 有 hash 有數值類型
只知道要做 multi-class classification 卻不知道要預測什麼
import Random forest classifier 建一個 quick baseline
用 -999 補 null value
Pandas factorize function 可以用來 label encoder 去 encode 所有類別型特徵(catrgorical feaures).
針對發現深入調查 (多試試 -> 假設 -> 驗證 -> 再試試 -> 假設 -> 驗證 -> 有時加好運氣或者直覺)

在資料多時, 無法目視判斷, 可用下列函數

df.dtypes
df.info()
x.value_counts()
x.isnull

-找出配對
-找出群組

截圖自coursera

系列文

跟top kaggler學習如何贏得資料分析競賽共 30 篇

21 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

立即登入留言