一個Kaggle金牌解法是如何誕生的？跟隨Kaggle NLP競賽高手的討論，探索解題脈絡

壓縮甜 (mafalda)

iT邦新手 5 級 ‧ 點數 299

NTU 台灣大學Data Science Degree Program

9947

累計瀏覽數

7人

在追蹤

站內簡訊追蹤

鐵人檔案

2024 iThome 鐵人賽

回列表

AI/ ML & Data

一個Kaggle金牌解法是如何誕生的？跟隨Kaggle NLP競賽高手的討論，探索解題脈絡系列

本系列文章有別於其他僅關注最終Kaggle競賽獲獎方案的文章，我們將聚焦於Kaggle NLP競賽討論區中的智慧火花，逐步展現這些解法是如何從討論中誕生的。最終的解決方案固然重要，但更重要的是探討這些解決方案是如何產生的。希望通過這種方式，讀者能夠學會在面對新的賽題時，應該從哪些角度進行觀察與思考。

初期，我們將從一些傳統的自然語言處理（NLP）賽題入手，如文本分類等；而在中後期，我們將重點聚焦在近兩年來大型語言模型（LLM）相關的賽題。通過實際案例和深度剖析，本系列將呈現一場技術與創新的饗宴，幫助讀者在未來的比賽中獲得更多的靈感與洞見。

鐵人鍊成｜共 30 篇文章｜ 12 人訂閱訂閱系列文 RSS系列文

1 Like 0 留言 809 瀏覽

DAY 21

[Day 21]不爭了！小孩才做選擇，大人全都要！淺談 Hybrid 架構驅動的 RAG Pipeline 建置與賽題大補帖！

今天會在分析眾多優秀解法後，從本次賽題的經驗，總結建立一個 RAG 系統最重要的幾個要點。 📢 作者有話要說：(10/5更新)我在 Day 20 補充第五名的多...

2024-10-05 ‧ 由壓縮甜分享

1 Like 0 留言 1334 瀏覽

DAY 22

[Day 22] 9.11>9.9?! 當今的大語言模型能否破解困難的奧數問題？Coding能力好數學就會比較好嗎？

以前，來自世界各地的高中生每年都會參加國際數學奧林匹克競賽（IMO），解決代數、幾何和數論等領域的六個極具挑戰性的問題。今年4月，一項全新的競賽——AI數學奧...

2024-10-06 ‧ 由壓縮甜分享

1 Like 0 留言 3654 瀏覽

DAY 23

[Day 23]為何LLM每次的回答都不一樣？淺談DeepSeek模型與Self-Consistency實戰應用

我們要如何利用「每次 LLM 的回覆都不一樣」這個現象，來增加產生正確答案的機率呢？今天會帶大家實際應用 self-consistency 到賽題中，並透過設計...

2024-10-07 ‧ 由壓縮甜分享

1 Like 0 留言 1224 瀏覽

DAY 24

[Day24]Try and Error! 淺談整合 Tool-Integrated Reasoning 和 Code Debugging 能力的 Decode 策略

第一名由 Numina 和 Hugging Face 的大佬們合作拿下，解決了private test set 中的 29/50 個問題，最終喜提美金 $131...

2024-10-08 ‧ 由壓縮甜分享

1 Like 0 留言 1496 瀏覽

DAY 25

[Day25]誰說打kaggle比賽一定要訓練模型？從第三名的解法看 Self-Consistency + Code Reasoning 之外的比賽工程技巧

前言昨天我們介紹了第一名的作法，雖然很精彩，但是他們在前期的兩階段訓練中（可能也是最重要的一部分）耗費了對個人參賽者（非實驗室）來說巨大的算力(八張 H100...

2024-10-09 ‧ 由壓縮甜分享

1 Like 0 留言 2381 瀏覽

DAY 26

[Day 26]"是人是AI，一照便知" - 沒想到最終能找出LLM槍手的原因，是因為LLM太完美了?!

自從2023年大型語言模型如ChatGPT火起來後，這些AI不僅能寫出幾乎和人一樣的文章，還開始影響學生的學習方式。雖然這讓寫作業變得簡單了，但也可能讓學生們...

2024-10-10 ‧ 由壓縮甜分享

1 Like 0 留言 3561 瀏覽

DAY 27

[Day 27]照妖(AI)鏡下的秘密-利用TF-IDF、BPE編碼、Kmeans Cluster和DetectGPT技術區分人類與AI寫作

標題提到一堆技術名詞...別擔心，今天都會串起來，像一個偵探故事一樣，每種技術都是線索，幫助我們揪出到底誰找 AI 當槍手。👀 前言昨天我們聊到僅用「錯字率」...

2024-10-11 ‧ 由壓縮甜分享

1 Like 0 留言 3226 瀏覽

DAY 28

[Day 28]不講武德的Host-不能太倚賴錯字率，一起看第二名「復刻米其林三星料理式」的資料擴增法，與「雞蛋放兩籃」的 ensemble 思路

我很喜歡今天介紹的第二名的 solution，在研究的時候有一種「啊哈moment」的快樂。昨天我們分享將文章轉成 TF-IDF 向量後送進 Logisti...

2024-10-12 ‧ 由壓縮甜分享

1 Like 0 留言 3446 瀏覽

DAY 29

[Day 29]模型與資料的超級 ensemble 體 - 淺談 Curriculum Learning 訓練方法與 Ghostbuster (捉鬼人)如何識別 AI 和人類作文

今天來學習一下第一名和第三名包山包海的 ensemble 大法。 🥇1st Solution 第一名的解法不愧是第一名，他們真的花好多 effort 在解這個賽...

2024-10-13 ‧ 由壓縮甜分享

1 Like 1 留言 4227 瀏覽

DAY 30

[Day 30]告別複雜巨獸 - 一起看第八名的小清新解法與IT鐵人賽後回望

前面介紹的方法又是擴增一堆訓練數據集，又是 ensemble 一堆不同架構、不同訓練方法的模型，真的心滿累的。所以，今天要跟大家分享的是本次賽題第八名的作法，...

2024-10-14 ‧ 由壓縮甜分享

壓縮甜的鐵人檔案

壓縮甜的收藏

壓縮甜的追蹤

壓縮甜的Like

壓縮甜的紀錄

壓縮甜的訂閱列表

鐵人檔案

一個Kaggle金牌解法是如何誕生的？跟隨Kaggle NLP競賽高手的討論，探索解題脈絡 系列

標記使用者

一個Kaggle金牌解法是如何誕生的？跟隨Kaggle NLP競賽高手的討論，探索解題脈絡系列