iT邦幫忙

鐵人檔案

2025 iThome 鐵人賽
回列表
AI & Data

咖狗報到-30天玩轉Kaggle競賽 系列

在資料科學的世界裡,實戰才是最好的學習方式。Kaggle 是全球最大的資料競賽平台,聚集了無數的有獎挑戰與高手討論集,可以說是「資料科學家的遊樂場」。本系列將以 30 天不間斷的鐵人挑戰,帶大家一起「遛咖狗」,一路體驗 Kaggle 的各種競賽,逐步拆解參賽流程。內容包含資料下載、EDA、前處理、建模、調參與模型融合。透過持續實戰,我們不只累積資料分析的經驗,還能打造自己的作品集,甚至認識志同道合的戰友。30 天連續挑戰,讓「咖狗」陪你一起,把資料科學從陌生變成日常!

參賽天數 18 天 | 共 18 篇文章 | 2 人訂閱 訂閱系列文 RSS系列文
DAY 1

一起來參加Kaggle競賽-提升實戰經驗1(註冊Kaggle+選定比賽)

為什麼選 Kaggle? Kaggle 是全世界公認最大的資料科學社群平台;可以下載資料、閱讀別人的 Notebook、參加實戰競賽,邊做邊學,還能把成果放進...

2025-09-14 ‧ 由 yuhua__ 分享
DAY 2

一起來參加Kaggle競賽-提升實戰經驗2(認識比賽+資料前處理)

繼昨天說的,下載完比賽資料後,第一步最重要的並不是立刻開始建模,而是先充分理解比賽的任務目標、評分方式以及資料型態。今天這篇文章,我會帶大家一步步認識 Bina...

2025-09-15 ‧ 由 yuhua__ 分享
DAY 3

一起來參加Kaggle競賽-提升實戰經驗3(探索式資料分析 ,EDA)

昨天我們理解了比賽的任務、評分方式,並完成資料解壓與前處理。今天,我們要進一步了解資料的分布與特徵,這一步叫做探索式資料分析(Exploratory Data...

2025-09-16 ‧ 由 yuhua__ 分享
DAY 4

一起來參加Kaggle競賽-提升實戰經驗4(建立Baseline Model)

昨天我們完成了探索性資料分析(EDA),對資料的特徵與分佈有了初步理解。今天,我們要先建立第一個簡單的模型,也就是 Baseline Model。這個模型不會針...

2025-09-17 ‧ 由 yuhua__ 分享
DAY 5

一起來參加Kaggle競賽-提升實戰經驗5(ROC AUC)

昨天我們建立了第一個 Baseline Model,今天我們要更進一步透過 視覺化模型表現 ,來了解我們的模型是怎麼做出判斷的,並思考如何改善。 1. 視覺化...

2025-09-18 ‧ 由 yuhua__ 分享
DAY 6

一起來參加Kaggle競賽-提升實戰經驗6(Random Forest)

昨天我們用 ROC 曲線 + AUC 了解了 Logistic Regression 的表現,今天來嘗試另一個模型 —— 隨機森林 (Random Forest...

2025-09-19 ‧ 由 yuhua__ 分享
DAY 7

一起來參加Kaggle競賽-提升實戰經驗7(資料不平衡處理)

昨天我們讓 Random Forest 登場,模型表現相當不錯,在驗證集上的 AUC 分數也優於 Logistic Regression 。 不過,我們還沒有將...

2025-09-20 ‧ 由 yuhua__ 分享
DAY 8

一起來參加Kaggle競賽-提升實戰經驗8(新比賽-Jigsaw ‒ Agile Community Rules Classification))

前言 在前幾天的實作中,我們一起參與了一場二元分類任務的比賽,目標是預測某人是否會辦理定期存款。那場比賽中,我們學到了如何進行初步的資料探索(EDA)、如何使用...

2025-09-21 ‧ 由 yuhua__ 分享
DAY 9

一起來參加Kaggle競賽-提升實戰經驗9(驗證身分與資料前處理)

1.競賽驗證 這場比賽比較特別,它需要開啟鏡頭進行真人驗證,確保是「真人」參賽。我先完成了這個步驟,不太清楚怎麼做的,可以參考下方的圖片 驗證完後成後要加入比賽...

2025-09-22 ‧ 由 yuhua__ 分享
DAY 10

一起來參加Kaggle競賽-提升實戰經驗10(資料前處理-One-Hot Encoding、Frequency Encoding 、Target Encoding)

今天我們進入資料清理與特徵工程,針對數值與類別欄位做合適的轉換,讓模型能更好地學習。 1.數值欄位標準化 在機器學習中,如果不同數值欄位的尺度差異過大,會影響...

2025-09-23 ‧ 由 yuhua__ 分享