2025 iThome 鐵人賽

DAY 1

[Day 1] 緣起與文章主題介紹

緣起如果你剛踏入數據科學的世界，那你一定聽說過 Kaggle 這個神奇的地方。Kaggle 是一個全球最大的數據科學競賽平台，匯聚了來自世界各地的數據愛好者和...

2 Like 0 留言 1104 瀏覽

DAY 2

[Day 2] Kaggle 自動作文評分競賽（一）- 淺談數據洩露與內容匹配：如何確認訓練數據中的潛在泄漏？

在一個平凡的周末午後，高中老師安娜埋首於堆積如山的學生作文中。每一篇作文都承載著學生們的心血與努力，但三個班每人每週一篇長文寫作，安娜的批改速度總是趕不上學生...

1 Like 0 留言 1348 瀏覽

DAY 3

[Day 3] Kaggle 自動作文評分競賽（二）- 比賽用的隱藏測試資料也和訓練資料一樣，有同樣的來源嗎？

前情提要昨天通過一番資料分析，確認主辦方提供的 17,307 筆 training data 中，有 12,873 筆完全一模一樣的 essay 內容出現在...

1 Like 0 留言 742 瀏覽

DAY 4

[Day 4] 探究 Train vs. Test Set 的真實差距:善用 Topic Modeling, Cross / Adversarial Validation等實用技巧！

前情提要在前一天的內容中，我們透過設計提交 Simple Baseline 和 Retrieval-based Method 來間接地確認 hidden te...

1 Like 0 留言 835 瀏覽

DAY 5

[Day 5] Kaggle 自動作文評分競賽（四）- 前四名優勝作法解析：彼此制衡的兩階段式微調、發揮奇效的 pseudo-labeling、集成多種 BERT Pooling 與最優化策略

前情提要昨天我們從主題建模、prompt name 與 score 的分佈等，更全面地探勘本次賽題的訓練資料集；也透過設計一些專用於這種 code compe...

2 Like 0 留言 827 瀏覽

DAY 6

[Day 6] 別著急訓練模型，挖掘好用的 feature 是成功的一半: EDA 實戰演練（上）

在一個充滿活力的校園里，安娜老師是深受學生喜愛的教師。但是這幾年她發現，在這個信息爆炸的時代，擁有良好的摘要能力變得尤為重要。然而，許多學生在總結時往往抓不住...

1 Like 0 留言 547 瀏覽

DAY 7

[Day 7]別著急訓練模型，挖掘好用的 feature 是成功的一半: EDA 實戰演練（中）- 從 Linguistic 和 Semantic 的角度計算文本相似度

EDA (進階版) 🤔 摘要寫得和原文越像，老師給的分數會越高嗎？直覺上來說，摘要和原文一點都不像，應該會超低分，代表根本沒有在根據原文寫作；但如果和原文一字...

1 Like 0 留言 834 瀏覽

DAY 8

[Day 8]別著急訓練模型，挖掘好用的 feature 是成功的一半: 結合 EDA 實戰演練（下）與 LGBM 模型，一起打一套組合拳吧！

前情提要昨天我們提出訓練資料中那 426 筆超低分的 data ，可能是因為學生抄襲所以被懲罰才得到全部一模一樣的超低分。我們今天要透過回答下面這三個問題來...

1 Like 0 留言 498 瀏覽

DAY 9

[Day 9] Data "Diversity" is King! 運用 LLM 和 Meta Pseudo Labeling 擴增數據集, 佐以 DeBERTa 和 LBGM 的多模態策略

今天會帶大家一步一步解析本賽題第一名🥇的思路🤩，在過程中可以學到如何使用 LLM 生成 high quality 的假資料，並用 Meta pseudo lab...

1 Like 0 留言 799 瀏覽

DAY 10

[Day 10]Head Mask Pooling 池化大法好🪄🦄-解析第二三名的優勝作法：Head Mask Pooling 與 Multi-Task Learning

在看了一堆解法分享後，看到第二名的做法真的會眼前一亮🤩，而且是絕對可以低成本偷學帶到其他賽題繼續使用的！我們直接切入正題： 🥈 2nd Solution 第二...

1 Like 0 留言 642 瀏覽

第十六屆佳作

系列文章