[Day 2] kaggle網站重點/ 規劃 pipeline

第 11 屆 iThome 鐵人賽

DAY 2

AI & Data

跟top kaggler學習如何贏得資料分析競賽系列第 2 篇

11th鐵人賽 kaggle

madeleine

2019-09-03 20:03:10

2361 瀏覽

分享至

kaggle網站重點

Data : 資料的區塊有兩個重點, description 跟 rules 要研讀清楚, 尤其是 rules
Model : 建模要發揮最佳預測(best prediciton)跟模組能夠重製(reproducable)
Submission : 通常是要參賽者送出預測結果, 也有少數比賽會要求送出 code
Evaluation : 指的是評估正確率(rate of correct answers), 一般來說evaluation function用的有 Accuracy, Logistic loss, AUC 或 RMSE, MAE 等.
Leaderboard : 排名分成 public/private, private是在快結束前, 通常會讓參賽者寄兩個 final submission

除了kaggle網站, 還有其他競賽網站
Kaggle
DrivenData
CrowdAnalityx
Codalab
DataScienceChallenge.net
DataScience.net
Single competition sites - KDD, VizDoom

Kaggle 的第一步

kaggle.com
Rules "很重要", "很重要", "很重要"
Data
Discussion : Kaggle 的精神不僅是參賽跟學習, 重點是分享, 所以大家可以在分享的各種角度見解投讚 (up vote)
Kernels : 可當作 smart virtue machine, 直接在 Kernels 上寫 code 跟執行, 然後分享. 另外, 看到其他參賽者有用的 code, 可以直接 fork 下來
sample submission : 老師建議以比賽 sample submission 先送出一次.
Leaderboard : 送出後可立即在 Leaderboard 看到名次
points, tiers : 點進 Overview 下方有 points 跟 tiers 的介紹, 可以得知參加該競賽對自己的排名有沒有幫助.
User Ranking : 右上角 Jobs 跟自己的頭像間有 ..., 點擊"...", 可以看自己的排名
Host a competition : 右上角 Jobs 跟自己的頭像間有 ..., 點擊"...", 自己主持一個競賽

參賽流程, 規劃 pipeline

理解 business 問題, 才能做出好 features
寫出問題的方程式
搜集資料
資料處理/清理資料
建模, 包括評估模型在真實世界時, 部署的方式

Kaggle 競賽與真實世界的差異

面向	Real World	Competition
Problem Formalization	Y	N
Choice of target metric	Y	N
Deployment issues	Y	N
Inference speed	Y	N
Data collecting	Y	N/Y
Model Complex	Y	N/Y
Target metric value	Y	Y

主要 ML 演算法

(1) Linear Models
(2) Tree-Based Methods
(3) K-NN
(4) NN

下列說明
(1) Linear Models 包括 Logistic Regression, SVM
(2) Tree-Based Methods 有 Decision Tree, Random Forest 跟 GBDT. 以下是老師們愛用且強力推薦的,且scikit-learn 都有, 像Gradient Boosted Decision Trees, XGBoost, LightGBM.
(3) K-NN 是Ｋ-nearest neighbors, 處理 2 元問題,
(4) NN 就是 Neural Network, 建議用 TensorFlow playground 可處理 text, images跟 sounds. 老師建議用 PyTorch, 常用的有 TensorFlow, Keras, MXNet, PyTorch 跟 Lasagne.