如果你剛踏入數據科學的世界,那你一定聽說過 Kaggle 這個神奇的地方。Kaggle 是一個全球最大的數據科學競賽平台,匯聚了來自世界各地的數據愛好者和專家。這裡不僅有各種有趣的數據挑戰賽,還有機會贏取豐厚的獎金。當你在深夜看到一封來自 Kaggle 的 email,宣佈即將舉行一場總獎金一百萬美元、開發時間長達兩到四個月的比賽時,是不是心癢難耐,腦海裡已經浮現出自己站在領獎台上的畫面?
很多人會興奮地點進比賽頁面,看完說明後暗自嘀咕:“哎,不過就是個分類或回歸問題嘛,AI課程裡都有教過,只是數據不同罷了。” 對於 NLP 的題目,可能腦海裡已經浮現出用預訓練的BERT模型來跑一訓練資料的場景。於是,一番爆 train 之後,幻想著自己即將成為金牌得主,甚至已經在計劃如何花掉五十萬美元的獎金。然而,一頓操作猛如虎,評測結束,你可能會發現自己在排行榜上連前 5% 都進不了,更別提拿金牌了。
經歷幾次這樣的挫敗後,你可能會開始懷疑那些金牌、銀牌得主是不是真的有什麼神秘的“大神”技能,他們有超級豐富的經驗和超敏銳的直覺,我等凡人似乎遙不可及。每次比賽結束後,看著他們分享的獲獎方案,心裡充滿了好奇:“他們到底是怎麼想到這些方法的?為什麼要這樣處理數據?為什麼選擇這種模型?怎麼知道要用這些技巧?”
隨著時間的推移,我開始注意到,這些獲獎方案並非憑空出現,而是建立在大量討論和知識共享的基礎上。
Kaggle競賽的魅力在於參賽者之間的開放與合作。通過共同討論從數據中發掘的 insight、分享自己做的假設與實驗結果,互相用證據支持或反駁,參賽者們相互啟迪,最終才有機會產生幾個得獎主的高效解法。
因此,我開始深入研究這些討論區中的內容,發現通過學習這些高手們如何觀察數據、分析資料、提出假設並設計實驗來驗證這些假設,我們可以學到許多寶貴的解題思路和方法。這些方法雖然不一定適用於每個賽題,但它們提供了可以跨賽題應用的思維模式和解決問題的框架。跟隨這些大神的對話,會發現這些金牌銀牌等得獎的方案其實有跡可循,我輩凡人其實跟隨這些討論串一起思考,其實也能順藤摸瓜想到和得獎主八九不離十的方案,這本身也是極具趣味和成就感的事情。
這正是本系列文章的初衷:帶領讀者一起探索這些討論區中的寶藏,從數據洞見到最終的優勝方案,一步步揭示這些解決方案是如何誕生的。
由於我本身對 NLP 有比較多的經驗和研究興趣,因此本系列文章的規劃是前期會介紹一些比較傳統的 NLP 賽題,中後期會開始介紹這一兩年才有關於 LLM 相關的競賽題目。
本次鐵人賽涵蓋的主題如下,我會在每日完稿後再更新連結:
Automated Essay Scoring 2.0 自動寫作評估
AI Mathematical Olympiad AI 奧數挑戰賽
LLM - Detect AI Generated Text 檢測AI生成的文本
以上是我預計會介紹的 Kaggle 競賽,個人覺得每個比賽都超級有趣:D
這些基本上都是這一兩年的競賽,所以得獎主使用的解法基本上也是現在相關研究人員時常使用的技術。由於每一個賽題都會詳細介紹當時討論區提到的一些有趣的假設和嘗試,如果時間允許的話也會介紹前四名的解法,不會只講金牌的做法(有時候金牌的做法反而比較無聊,就只是 ensemble 一堆模型而已,有用但無趣),因此可能會連續三四天都介紹同一個賽題的不同面向。
由於重點想放在這些參賽者是怎麼拆解賽題、分析數據的思路過程,因此有些過程中用到的一些常見的演算法、模型就不會特別去介紹以讓文章內容更聚焦。因此本系列比較適合熟悉自然語言處理的常見工具、演算法,以及語言模型等觀念,但缺乏怎麼使用這些模型、工具的實戰經驗的這類讀者。
謝謝讀到最後的你,希望你也會對這些比賽和本文的寫作內容有興趣~
如果喜歡這系列,別忘了按下訂閱,才不會錯過最新更新,也可以按讚給我鼓勵唷!👏👏
接下來,讓我們一起走進Kaggle競賽的世界,從討論區發現那些金牌解法背後的故事吧:)