本系列文章有別於其他僅關注最終Kaggle競賽獲獎方案的文章,我們將聚焦於Kaggle NLP競賽討論區中的智慧火花,逐步展現這些解法是如何從討論中誕生的。最終的解決方案固然重要,但更重要的是探討這些解決方案是如何產生的。希望通過這種方式,讀者能夠學會在面對新的賽題時,應該從哪些角度進行觀察與思考。
初期,我們將從一些傳統的自然語言處理(NLP)賽題入手,如文本分類等;而在中後期,我們將重點聚焦在近兩年來大型語言模型(LLM)相關的賽題。通過實際案例和深度剖析,本系列將呈現一場技術與創新的饗宴,幫助讀者在未來的比賽中獲得更多的靈感與洞見。
今天會在分析眾多優秀解法後,從本次賽題的經驗,總結建立一個 RAG 系統最重要的幾個要點。 📢 作者有話要說:(10/5更新)我在 Day 20 補充第五名的多...
以前,來自世界各地的高中生每年都會參加國際數學奧林匹克競賽(IMO),解決代數、幾何和數論等領域的六個極具挑戰性的問題。今年4月,一項全新的競賽——AI數學奧...
我們要如何利用「每次 LLM 的回覆都不一樣」這個現象,來增加產生正確答案的機率呢?今天會帶大家實際應用 self-consistency 到賽題中,並透過設計...
第一名由 Numina 和 Hugging Face 的大佬們合作拿下,解決了private test set 中的 29/50 個問題,最終喜提美金 $131...
前言 昨天我們介紹了第一名的作法,雖然很精彩,但是他們在前期的兩階段訓練中(可能也是最重要的一部分)耗費了對個人參賽者(非實驗室)來說巨大的算力(八張 H100...
自從2023年大型語言模型如ChatGPT火起來後,這些AI不僅能寫出幾乎和人一樣的文章,還開始影響學生的學習方式。雖然這讓寫作業變得簡單了,但也可能讓學生們...
標題提到一堆技術名詞...別擔心,今天都會串起來,像一個偵探故事一樣,每種技術都是線索,幫助我們揪出到底誰找 AI 當槍手。👀 前言 昨天我們聊到僅用「錯字率」...
我很喜歡今天介紹的第二名的 solution,在研究的時候有一種 「啊哈moment」的快樂。 昨天我們分享將文章轉成 TF-IDF 向量後送進 Logisti...
今天來學習一下第一名和第三名包山包海的 ensemble 大法。 🥇1st Solution 第一名的解法不愧是第一名,他們真的花好多 effort 在解這個賽...
前面介紹的方法又是擴增一堆訓練數據集,又是 ensemble 一堆不同架構、不同訓練方法的模型,真的心滿累的。 所以,今天要跟大家分享的是本次賽題第八名的作法,...