iT邦幫忙

第 11 屆 iThome 鐵人賽

DAY 24
0
AI & Data

AI+Line系列 第 24

Day24 大數據(3):收集數據(Kaggle平台)

收集可量化的數據

有些資料可以直接拿來用:

  1. 身高:180公分
  2. 消費金額:500元

有些資料可事先做定義(當然也可事後做轉換):

  1. 性別:0代表男、1代表女、2代表其他、-1代表無紀錄
  2. 距離:0代表200公尺內、1代表1公里內、2代表5公里內、3代表5公里以上

轉換的方法,以下是常見的例子:

  1. 有個欄位是記錄「每坪xx~xx萬」這串文字,至少需要轉成兩個欄位「每坪最低」、「每坪最高」
  2. 顏色有「紅、藍、綠、黃」可轉成獨熱編碼(可參考跟之前數字的轉換)
  3. 打折類型,第一種打9折,第二種買滿30元折5元,可轉成:
    欄位「打折類型」,0代表第一種,1代表第二種,-1代表沒記錄
    欄位「買滿」、「折扣」,紀錄第二種(也就是打折類型1)的買滿多少、折扣多少
    https://imgur.com/R67UC2k.png

小心「倖存者偏差」數據造成誤導

二戰期間,飛回來的飛機,中彈最多的是機翼、中彈最少的是機尾,請問要加強防護飛機的哪裡?
結論是,要保護的不是中彈最多的機翼,反而是機尾的引擎。
因為引擎中彈的飛機根本飛不回來,因此也就「收集不到這些數據」!

https://imgur.com/lpkoujM.png

Kaggle的鐵達尼號倖存者資料

由於需要現成的資料,我們到Kaggle人工智慧競賽平台上找已有的專案
上面通常有「練習專案」、「學術專案」、「政府專案」、「公司專案」,後者報酬豐厚,常會看到高手們組團攻克

這次選擇「鐵達尼號倖存者」,作為入門的介紹
這是一個分類問題(Classification),也就是給你乘客的資料,請你預測這位乘客是否倖存
1代表100%倖存,0代表0%倖存(也就是死亡)
這類的題目,預測的是「Yes」、「No」,所以之後也可以舉一反三,從消費者資料去預測消費者是否會購買的機率

我們標榜一步一步教,從註冊登入畫面開始:
https://imgur.com/YdDnKKt.png

查詢「Titanic: Machine Learning from Disaster」專案,或點選連結https://www.kaggle.com/c/titanic
https://imgur.com/HT9KjHO.png

  1. 加入此專案
  2. 點資料頁面
  3. 下載資料,也就是訓練集(資料與標籤)、測試集(有資料、但沒有標籤)
    https://imgur.com/4HyYrfe.png

上一篇
Day23 大數據(2):提出問題
下一篇
Day25 大數據(4):觀察數據
系列文
AI+Line30

尚未有邦友留言

立即登入留言