iT邦幫忙

鐵人檔案

2025 iThome 鐵人賽
回列表
AI & Data

咖狗報到-30天玩轉Kaggle競賽 系列

在資料科學的世界裡,實戰才是最好的學習方式。Kaggle 是全球最大的資料競賽平台,聚集了無數的有獎挑戰與高手討論集,可以說是「資料科學家的遊樂場」。本系列將以 30 天不間斷的鐵人挑戰,帶大家一起「遛咖狗」,一路體驗 Kaggle 的各種競賽,逐步拆解參賽流程。內容包含資料下載、EDA、前處理、建模、調參與模型融合。透過持續實戰,我們不只累積資料分析的經驗,還能打造自己的作品集,甚至認識志同道合的戰友。30 天連續挑戰,讓「咖狗」陪你一起,把資料科學從陌生變成日常!

參賽天數 18 天 | 共 18 篇文章 | 2 人訂閱 訂閱系列文 RSS系列文
DAY 11

一起來參加Kaggle競賽-提升實戰經驗11(Baseline model)

在昨天,我們已經完成檢查資料缺失值與編碼,將原始資料轉換成適合輸入機器學習模型的數字矩陣。今天,我們要建立一個簡單的 Baseline Model,目的是確保資...

2025-09-24 ‧ 由 yuhua__ 分享
DAY 12

一起來參加Kaggle競賽-提升實戰經驗12(out-of-fold predictions)

昨天看到 0.9926 的分數差點開香檳,但冷靜想想,這絕對不是我的模型忽然變成神。今天的任務就是把這個 bug 修好,用正確的方法重新建立 Target En...

2025-09-25 ‧ 由 yuhua__ 分享
DAY 13

一起來參加Kaggle競賽-提升實戰經驗13(Word2Vec+xgboost)

昨天我們完成了用 Target Encoding + RandomForest baseline model ,分數只有 0.533,雖然低(大概1600名,...

2025-09-26 ‧ 由 yuhua__ 分享
DAY 14

一起來參加Kaggle競賽-提升實戰經驗14(本地 Validation 有 0.736,上傳 Kaggle ......)

昨天我們已經在本機端成功完成 Google News 預訓練 Word2Vec (300 維度) + XGBoost 的分類任務。程式在本機環境可以執行,結果也...

2025-09-27 ‧ 由 yuhua__ 分享
DAY 15

一起來參加Kaggle競賽-提升實戰經驗15(詞向量大亂鬥:Word2Vec、GloVe、FastText)

🚨 今天的聲明 我決定今天放慢進度,因為 Kaggle Notebook 真的太難用了。 CPU 跑超慢,提交限制又一大堆,搞得我心情很差。 比起訓練模型,我敗...

2025-09-28 ‧ 由 yuhua__ 分享
DAY 16

一起來參加Kaggle競賽-提升實戰經驗16(Pooling 大亂鬥:平均?最大?還是兩個都要?)

回顧昨天 稍微修改了一下昨天的程式碼,確定輸出的格式符合比賽需求。結果最高分是用GloVe,所以今天我們要更進一步,來試試不同的 Pooling 策略,看看誰能...

2025-09-29 ‧ 由 yuhua__ 分享
DAY 17

一起來參加Kaggle競賽-提升實戰經驗17(長短期記憶 Long Short-Term Memory,LSTM)

昨天我們聊了 Pooling 策略,像是 mean pooling、max pooling,這些方法可以把一個句子壓縮成固定長度的向量。但是這些方法還有一個致命...

2025-09-30 ‧ 由 yuhua__ 分享
DAY 18

一起來參加Kaggle競賽-提升實戰經驗

昨天我們玩過 Word2Vec、GloVe、FastText,還有 LSTM。這些方法都很好,但是在 Kaggle 這種比賽裡,有時候「速度 + 穩定性」比什麼...

2025-10-01 ‧ 由 yuhua__ 分享