本系列文章有別於其他僅關注最終Kaggle競賽獲獎方案的文章,我們將聚焦於Kaggle NLP競賽討論區中的智慧火花,逐步展現這些解法是如何從討論中誕生的。最終的解決方案固然重要,但更重要的是探討這些解決方案是如何產生的。希望通過這種方式,讀者能夠學會在面對新的賽題時,應該從哪些角度進行觀察與思考。
初期,我們將從一些傳統的自然語言處理(NLP)賽題入手,如文本分類等;而在中後期,我們將重點聚焦在近兩年來大型語言模型(LLM)相關的賽題。通過實際案例和深度剖析,本系列將呈現一場技術與創新的饗宴,幫助讀者在未來的比賽中獲得更多的靈感與洞見。
緣起 如果你剛踏入數據科學的世界,那你一定聽說過 Kaggle 這個神奇的地方。Kaggle 是一個全球最大的數據科學競賽平台,匯聚了來自世界各地的數據愛好者和...
在一個平凡的周末午後,高中老師安娜埋首於堆積如山的學生作文中。每一篇作文都承載著學生們的心血與努力,但三個班每人每週一篇長文寫作,安娜的批改速度總是趕不上學生...
前情提要 昨天通過一番資料分析,確認主辦方提供的 17,307 筆 training data 中,有 12,873 筆完全一模一樣的 essay 內容出現在...
前情提要 在前一天的內容中,我們透過設計提交 Simple Baseline 和 Retrieval-based Method 來間接地確認 hidden te...
前情提要 昨天我們從主題建模、prompt name 與 score 的分佈等,更全面地探勘本次賽題的訓練資料集;也透過設計一些專用於這種 code compe...
在一個充滿活力的校園里,安娜老師是深受學生喜愛的教師。但是這幾年她發現,在這個信息爆炸的時代,擁有良好的摘要能力變得尤為重要。然而,許多學生在總結時往往抓不住...
EDA (進階版) 🤔 摘要寫得和原文越像,老師給的分數會越高嗎? 直覺上來說,摘要和原文一點都不像,應該會超低分,代表根本沒有在根據原文寫作;但如果和原文一字...
前情提要 昨天我們提出訓練資料中那 426 筆超低分的 data ,可能是因為學生抄襲所以被懲罰才得到全部一模一樣的超低分。 我們今天要透過回答下面這三個問題來...
今天會帶大家一步一步解析本賽題第一名🥇的思路🤩,在過程中可以學到如何使用 LLM 生成 high quality 的假資料,並用 Meta pseudo lab...
在看了一堆解法分享後,看到第二名的做法真的會眼前一亮🤩,而且是絕對可以低成本偷學帶到其他賽題繼續使用的! 我們直接切入正題: 🥈 2nd Solution 第二...