iT邦幫忙

鐵人檔案

2024 iThome 鐵人賽
回列表
AI/ ML & Data

一個Kaggle金牌解法是如何誕生的?跟隨Kaggle NLP競賽高手的討論,探索解題脈絡 系列

本系列文章有別於其他僅關注最終Kaggle競賽獲獎方案的文章,我們將聚焦於Kaggle NLP競賽討論區中的智慧火花,逐步展現這些解法是如何從討論中誕生的。最終的解決方案固然重要,但更重要的是探討這些解決方案是如何產生的。希望通過這種方式,讀者能夠學會在面對新的賽題時,應該從哪些角度進行觀察與思考。

初期,我們將從一些傳統的自然語言處理(NLP)賽題入手,如文本分類等;而在中後期,我們將重點聚焦在近兩年來大型語言模型(LLM)相關的賽題。通過實際案例和深度剖析,本系列將呈現一場技術與創新的饗宴,幫助讀者在未來的比賽中獲得更多的靈感與洞見。

鐵人鍊成 | 共 30 篇文章 | 4 人訂閱 訂閱系列文 RSS系列文
DAY 1

[Day 1] 緣起與文章主題介紹

緣起 如果你剛踏入數據科學的世界,那你一定聽說過 Kaggle 這個神奇的地方。Kaggle 是一個全球最大的數據科學競賽平台,匯聚了來自世界各地的數據愛好者和...

2024-09-15 ‧ 由 壓縮甜 分享
DAY 2

[Day 2] Kaggle 自動作文評分競賽(一)- 淺談數據洩露與內容匹配:如何確認訓練數據中的潛在泄漏?

在一個平凡的周末午後,高中老師安娜埋首於堆積如山的學生作文中。每一篇作文都承載著學生們的心血與努力,但三個班每人每週一篇長文寫作,安娜的批改速度總是趕不上學生...

2024-09-16 ‧ 由 壓縮甜 分享
DAY 3

[Day 3] Kaggle 自動作文評分競賽(二)- 比賽用的隱藏測試資料也和訓練資料一樣,有同樣的來源嗎?

前情提要 昨天通過一番資料分析,確認主辦方提供的 17,307 筆 training data 中,有 12,873 筆完全一模一樣的 essay 內容出現在...

2024-09-17 ‧ 由 壓縮甜 分享
DAY 4

[Day 4] 探究 Train vs. Test Set 的真實差距:善用 Topic Modeling, Cross / Adversarial Validation等實用技巧!

前情提要 在前一天的內容中,我們透過設計提交 Simple Baseline 和 Retrieval-based Method 來間接地確認 hidden te...

2024-09-18 ‧ 由 壓縮甜 分享
DAY 5

[Day 5] Kaggle 自動作文評分競賽(四)- 前四名優勝作法解析:彼此制衡的兩階段式微調、發揮奇效的 pseudo-labeling、集成多種 BERT Pooling 與最優化策略

前情提要 昨天我們從主題建模、prompt name 與 score 的分佈等,更全面地探勘本次賽題的訓練資料集;也透過設計一些專用於這種 code compe...

2024-09-19 ‧ 由 壓縮甜 分享
DAY 6

[Day 6] 別著急訓練模型,挖掘好用的 feature 是成功的一半: EDA 實戰演練(上)

在一個充滿活力的校園里,安娜老師是深受學生喜愛的教師。但是這幾年她發現,在這個信息爆炸的時代,擁有良好的摘要能力變得尤為重要。然而,許多學生在總結時往往抓不住...

2024-09-20 ‧ 由 壓縮甜 分享
DAY 7

[Day 7]別著急訓練模型,挖掘好用的 feature 是成功的一半: EDA 實戰演練(中)- 從 Linguistic 和 Semantic 的角度計算文本相似度

EDA (進階版) 🤔 摘要寫得和原文越像,老師給的分數會越高嗎? 直覺上來說,摘要和原文一點都不像,應該會超低分,代表根本沒有在根據原文寫作;但如果和原文一字...

2024-09-21 ‧ 由 壓縮甜 分享
DAY 8

[Day 8]別著急訓練模型,挖掘好用的 feature 是成功的一半: 結合 EDA 實戰演練(下)與 LGBM 模型,一起打一套組合拳吧!

前情提要 昨天我們提出訓練資料中那 426 筆超低分的 data ,可能是因為學生抄襲所以被懲罰才得到全部一模一樣的超低分。 我們今天要透過回答下面這三個問題來...

2024-09-22 ‧ 由 壓縮甜 分享
DAY 9

[Day 9] Data "Diversity" is King! 運用 LLM 和 Meta Pseudo Labeling 擴增數據集, 佐以 DeBERTa 和 LBGM 的多模態策略

今天會帶大家一步一步解析本賽題第一名🥇的思路🤩,在過程中可以學到如何使用 LLM 生成 high quality 的假資料,並用 Meta pseudo lab...

2024-09-23 ‧ 由 壓縮甜 分享
DAY 10

[Day 10]Head Mask Pooling 池化大法好🪄🦄-解析第二三名的優勝作法:Head Mask Pooling 與 Multi-Task Learning

在看了一堆解法分享後,看到第二名的做法真的會眼前一亮🤩,而且是絕對可以低成本偷學帶到其他賽題繼續使用的! 我們直接切入正題: 🥈 2nd Solution 第二...

2024-09-24 ‧ 由 壓縮甜 分享