撰寫特徵工程,建模,訓練,預測Part1,2,3的程式部分
整合前三天提到的內容,內容會有點長,可以搭配前三天說明服用
如何用Python做機器學習最精華部分
可以用.info()持續觀察目前資料集長相
也可以用.describe()看數值欄位統計量
針對一個fare缺失值,區間避免切太小失真或太大過擬合,我們用Pandas將票價分成4,5,6個區間,以遞迴特徵選擇(Recursive feature elimination,RFE)判斷,最後以OOB判斷切5份比較適當
由ticket找出關係,並確認OOB有增加
觀察age缺失值分佈再分群
https://medium.com/@yulongtsai/https-medium-com-yulongtsai-titanic-top3-8e64741cc11f