iT邦幫忙

第 11 屆 iThome 鐵人賽

DAY 9
1
AI & Data

跟top kaggler學習如何贏得資料分析競賽 系列 第 9

[Day 9] Anonymized data 匿名資料

Anonymized data

匿名是保護資料免於用來找出真實資料的一種模式, 例如雜湊 hash 處理較敏感或機密的資料, 參賽者可透過合法的方式解匿名, 例如下面例子的 x1~x6 匿名特徵.
https://ithelp.ithome.com.tw/upload/images/20190910/20108719aoHs6SYIsg.png
截圖自coursera


探索個別特徵

-猜測欄位意思
-猜測欄位類別
https://ithelp.ithome.com.tw/upload/images/20190910/2010871982tQlxlgI0.png
截圖自coursera


猜測欄位意思 : 建一個 quick baseline步驟 (語法連結 http://nbviewer.jupyter.org/gist/DmitryUlyanov/b7ed050558c905eb895923e8e9602468)

  1. 讀資料, 有 hash 有數值類型
  2. 只知道要做 multi-class classification 卻不知道要預測什麼
  3. import Random forest classifier 建一個 quick baseline
  4. 用 -999 補 null value
  5. Pandas factorize function 可以用來 label encoder 去 encode 所有類別型特徵(catrgorical feaures).
  6. 針對發現深入調查 (多試試 -> 假設 -> 驗證 -> 再試試 -> 假設 -> 驗證 -> 有時加好運氣或者直覺)

猜測欄位類別 :

x1 文字或實體記錄
x2 二元資料
x3 二元資料
x4 數值資料
x5 類別或數值資料
xn .....

在資料多時, 無法目視判斷, 可用下列函數

df.dtypes
df.info()
x.value_counts()
x.isnull

探索特徵之間的關係

-找出配對
-找出群組

https://ithelp.ithome.com.tw/upload/images/20190910/2010871982tQlxlgI0.png
截圖自coursera


上一篇
[Day 8] EDA / Exploratory Data Analysis
下一篇
[Day 10] Visualizations / 視覺化
系列文
跟top kaggler學習如何贏得資料分析競賽 30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言