一個Kaggle金牌解法是如何誕生的？跟隨Kaggle NLP競賽高手的討論，探索解題脈絡

壓縮甜 (mafalda)

iT邦新手 5 級 ‧ 點數 299

NTU 台灣大學Data Science Degree Program

7235

累計瀏覽數

7人

在追蹤

站內簡訊追蹤

鐵人檔案

2024 iThome 鐵人賽

回列表

AI/ ML & Data

一個Kaggle金牌解法是如何誕生的？跟隨Kaggle NLP競賽高手的討論，探索解題脈絡系列

本系列文章有別於其他僅關注最終Kaggle競賽獲獎方案的文章，我們將聚焦於Kaggle NLP競賽討論區中的智慧火花，逐步展現這些解法是如何從討論中誕生的。最終的解決方案固然重要，但更重要的是探討這些解決方案是如何產生的。希望通過這種方式，讀者能夠學會在面對新的賽題時，應該從哪些角度進行觀察與思考。

初期，我們將從一些傳統的自然語言處理（NLP）賽題入手，如文本分類等；而在中後期，我們將重點聚焦在近兩年來大型語言模型（LLM）相關的賽題。通過實際案例和深度剖析，本系列將呈現一場技術與創新的饗宴，幫助讀者在未來的比賽中獲得更多的靈感與洞見。

鐵人鍊成｜共 30 篇文章｜ 10 人訂閱訂閱系列文 RSS系列文

2 Like 0 留言 905 瀏覽

DAY 1

[Day 1] 緣起與文章主題介紹

緣起如果你剛踏入數據科學的世界，那你一定聽說過 Kaggle 這個神奇的地方。Kaggle 是一個全球最大的數據科學競賽平台，匯聚了來自世界各地的數據愛好者和...

2024-09-15 ‧ 由壓縮甜分享

1 Like 0 留言 1171 瀏覽

DAY 2

[Day 2] Kaggle 自動作文評分競賽（一）- 淺談數據洩露與內容匹配：如何確認訓練數據中的潛在泄漏？

在一個平凡的周末午後，高中老師安娜埋首於堆積如山的學生作文中。每一篇作文都承載著學生們的心血與努力，但三個班每人每週一篇長文寫作，安娜的批改速度總是趕不上學生...

2024-09-16 ‧ 由壓縮甜分享

1 Like 0 留言 659 瀏覽

DAY 3

[Day 3] Kaggle 自動作文評分競賽（二）- 比賽用的隱藏測試資料也和訓練資料一樣，有同樣的來源嗎？

前情提要昨天通過一番資料分析，確認主辦方提供的 17,307 筆 training data 中，有 12,873 筆完全一模一樣的 essay 內容出現在...

2024-09-17 ‧ 由壓縮甜分享

1 Like 0 留言 753 瀏覽

DAY 4

[Day 4] 探究 Train vs. Test Set 的真實差距:善用 Topic Modeling, Cross / Adversarial Validation等實用技巧！

前情提要在前一天的內容中，我們透過設計提交 Simple Baseline 和 Retrieval-based Method 來間接地確認 hidden te...

2024-09-18 ‧ 由壓縮甜分享

2 Like 0 留言 720 瀏覽

DAY 5

[Day 5] Kaggle 自動作文評分競賽（四）- 前四名優勝作法解析：彼此制衡的兩階段式微調、發揮奇效的 pseudo-labeling、集成多種 BERT Pooling 與最優化策略

前情提要昨天我們從主題建模、prompt name 與 score 的分佈等，更全面地探勘本次賽題的訓練資料集；也透過設計一些專用於這種 code compe...

2024-09-19 ‧ 由壓縮甜分享

1 Like 0 留言 468 瀏覽

DAY 6

[Day 6] 別著急訓練模型，挖掘好用的 feature 是成功的一半: EDA 實戰演練（上）

在一個充滿活力的校園里，安娜老師是深受學生喜愛的教師。但是這幾年她發現，在這個信息爆炸的時代，擁有良好的摘要能力變得尤為重要。然而，許多學生在總結時往往抓不住...

2024-09-20 ‧ 由壓縮甜分享

1 Like 0 留言 699 瀏覽

DAY 7

[Day 7]別著急訓練模型，挖掘好用的 feature 是成功的一半: EDA 實戰演練（中）- 從 Linguistic 和 Semantic 的角度計算文本相似度

EDA (進階版) 🤔 摘要寫得和原文越像，老師給的分數會越高嗎？直覺上來說，摘要和原文一點都不像，應該會超低分，代表根本沒有在根據原文寫作；但如果和原文一字...

2024-09-21 ‧ 由壓縮甜分享

1 Like 0 留言 399 瀏覽

DAY 8

[Day 8]別著急訓練模型，挖掘好用的 feature 是成功的一半: 結合 EDA 實戰演練（下）與 LGBM 模型，一起打一套組合拳吧！

前情提要昨天我們提出訓練資料中那 426 筆超低分的 data ，可能是因為學生抄襲所以被懲罰才得到全部一模一樣的超低分。我們今天要透過回答下面這三個問題來...

2024-09-22 ‧ 由壓縮甜分享

1 Like 0 留言 652 瀏覽

DAY 9

[Day 9] Data "Diversity" is King! 運用 LLM 和 Meta Pseudo Labeling 擴增數據集, 佐以 DeBERTa 和 LBGM 的多模態策略

今天會帶大家一步一步解析本賽題第一名🥇的思路🤩，在過程中可以學到如何使用 LLM 生成 high quality 的假資料，並用 Meta pseudo lab...

2024-09-23 ‧ 由壓縮甜分享

1 Like 0 留言 533 瀏覽

DAY 10

[Day 10]Head Mask Pooling 池化大法好🪄🦄-解析第二三名的優勝作法：Head Mask Pooling 與 Multi-Task Learning

在看了一堆解法分享後，看到第二名的做法真的會眼前一亮🤩，而且是絕對可以低成本偷學帶到其他賽題繼續使用的！我們直接切入正題： 🥈 2nd Solution 第二...

2024-09-24 ‧ 由壓縮甜分享

壓縮甜的鐵人檔案

壓縮甜的收藏

壓縮甜的追蹤

壓縮甜的Like

壓縮甜的紀錄

壓縮甜的訂閱列表

鐵人檔案

一個Kaggle金牌解法是如何誕生的？跟隨Kaggle NLP競賽高手的討論，探索解題脈絡 系列

標記使用者

一個Kaggle金牌解法是如何誕生的？跟隨Kaggle NLP競賽高手的討論，探索解題脈絡系列