iT邦幫忙

第 11 屆 iThome 鐵人賽

DAY 1
0
AI & Data

跟top kaggler學習如何贏得資料分析競賽 系列 第 1

[Day 1] 跟top kaggler學習如何贏得資料分析競賽 - 4周主題架構

  • 分享至 

  • xImage
  •  

為什麼選這個主題?

學習來源是 coursera 的一群年輕人在前 top 1 kaggler Alexander Djakonov 教導 ML 跟 kaggle 秘訣, 這群年輕人起初是幾個人每週互相分享解題心得, 到最後變成超過50人的每週主題式分享, 每個人各有專長跟興趣, 但成為團體後組隊參加 kaggle 競賽, 大家越來越厲害, 也闖出名氣.
喜歡解題+自學資源, 因此我會跟著 coursera 這個課程四週課程來努力完成 30天競賽.

課程來源

How to Win a Data Science Competition: Learn from Top Kagglers | National Research University Higher School of Economics by cousera

week 1 :

  1. 介紹 kaggle 競賽及比較真實世界(產業)差異;
  2. feature 處理及新增 feature

week 2 :

  1. EDA - 競賽的第一件事是 EDA, 包括有哪些方法理解 data, 發掘未知的 feature跟清理資料, 探討視覺化, 時程等
  2. validation - split test/train data
  3. data leakage & leader board

week 3 :

  1. metrics - regession 跟 classification 不同的 metrics, 在training 跟之後的優化
  2. mean-encodings - 定義 mean-encoding 並且運用在 encoded features 上, 包括 (1) categorical features. (2) balance overfitting with regulaization. (3) 把 mean-encoding 實作在 numeric features 跟 time series

week 4 :

  1. 進階 features : "metrics factoeizations, feature interactions, t-SNE" 是比賽脫穎而出的關鍵, 包含統計跟 distance-based features.
  2. hyperparameters optimization, tune model 的知識/實務
  3. ensembles - 以 simple linear ensemble 為始, 然後運用 bagging 跟 boosting 等演算法
  4. coursera 還有 week 5, 會盡量把 winning solution 包進 week 4, 不確定能否完成 week 5 的 final project

下一篇
[Day 2] kaggle網站重點/ 規劃 pipeline
系列文
跟top kaggler學習如何贏得資料分析競賽 30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言