Data : 資料的區塊有兩個重點, description 跟 rules 要研讀清楚, 尤其是 rules
Model : 建模要發揮最佳預測(best prediciton)跟模組能夠重製(reproducable)
Submission : 通常是要參賽者送出預測結果, 也有少數比賽會要求送出 code
Evaluation : 指的是評估正確率(rate of correct answers), 一般來說evaluation function用的有 Accuracy, Logistic loss, AUC 或 RMSE, MAE 等.
Leaderboard : 排名分成 public/private, private是在快結束前, 通常會讓參賽者寄兩個 final submission
除了kaggle網站, 還有其他競賽網站
Kaggle
DrivenData
CrowdAnalityx
Codalab
DataScienceChallenge.net
DataScience.net
Single competition sites - KDD, VizDoom
面向 | Real World | Competition |
---|---|---|
Problem Formalization | Y | N |
Choice of target metric | Y | N |
Deployment issues | Y | N |
Inference speed | Y | N |
Data collecting | Y | N/Y |
Model Complex | Y | N/Y |
Target metric value | Y | Y |
(1) Linear Models
(2) Tree-Based Methods
(3) K-NN
(4) NN
下列說明
(1) Linear Models 包括 Logistic Regression, SVM
(2) Tree-Based Methods 有 Decision Tree, Random Forest 跟 GBDT. 以下是老師們愛用且強力推薦的,且scikit-learn 都有, 像Gradient Boosted Decision Trees, XGBoost, LightGBM.
(3) K-NN 是 K-nearest neighbors, 處理 2 元問題,
(4) NN 就是 Neural Network, 建議用 TensorFlow playground 可處理 text, images跟 sounds. 老師建議用 PyTorch, 常用的有 TensorFlow, Keras, MXNet, PyTorch 跟 Lasagne.