知道什麼是kaggle,還有接下來15天我們要完成的事項
知道kaggle機器學習題目參賽流程
在Day0我們有提到要以titanic為導向,他是kaggle入門第一個題目
kaggle可以說是資料科學界的leetcode,他有一堆準備好的玩具資料集,跟像Jupyter notebook類似的執行環境
而我們目前當然沒辦法刷kaggle,但我們可以做的是理解kaggle題目在幹嘛,怎麼寫,其實kaggle還有深度學習跟其他題目,但我們注重在入門第一道題,剩下的順藤摸瓜就可以了
由於kaggle是個很大的題目,格局不是一道Conwey's game of life就可以解決的,其中用到的觀念我們會用到很久很久
在這部分我希望以一天講解,一天程式撰寫,切割征服的方式在15天後完成,而整個流程如下
引入所需模組與必要的資料集
查看資料
分析資料
特徵工程,建模,訓練,預測
產生csv上傳
首先到Titanic 頁面,腦中突然想起那部電影,跟My Heart Will Go On
好拉,老實說我都邊放歌邊看這個題目的
可以從Data 頁籤下載所需資料集
下載下來會像上圖這樣
註冊登入後會看到這個頁面,資料完成後點藍色按鈕
這邊是上傳區,丟預測好的CSV格式資料上傳,如果資料格式無誤,系統會給評分,要注意一天只能接受10份評分
如果需要整個ipynb參考的同學們請從這邊下載接下來幾天的程式範例,並與資料集放置於同個資料夾