有些資料可以直接拿來用:
有些資料可事先做定義(當然也可事後做轉換):
轉換的方法,以下是常見的例子:
二戰期間,飛回來的飛機,中彈最多的是機翼、中彈最少的是機尾,請問要加強防護飛機的哪裡?
結論是,要保護的不是中彈最多的機翼,反而是機尾的引擎。
因為引擎中彈的飛機根本飛不回來,因此也就「收集不到這些數據」!
由於需要現成的資料,我們到Kaggle人工智慧競賽平台上找已有的專案
上面通常有「練習專案」、「學術專案」、「政府專案」、「公司專案」,後者報酬豐厚,常會看到高手們組團攻克
這次選擇「鐵達尼號倖存者」,作為入門的介紹
這是一個分類問題(Classification),也就是給你乘客的資料,請你預測這位乘客是否倖存
1代表100%倖存,0代表0%倖存(也就是死亡)
這類的題目,預測的是「Yes」、「No」,所以之後也可以舉一反三,從消費者資料去預測消費者是否會購買的機率
我們標榜一步一步教,從註冊登入畫面開始:
查詢「Titanic: Machine Learning from Disaster」專案,或點選連結https://www.kaggle.com/c/titanic