緣起 如果你剛踏入數據科學的世界,那你一定聽說過 Kaggle 這個神奇的地方。Kaggle 是一個全球最大的數據科學競賽平台,匯聚了來自世界各地的數據愛好者和...
在一個平凡的周末午後,高中老師安娜埋首於堆積如山的學生作文中。每一篇作文都承載著學生們的心血與努力,但三個班每人每週一篇長文寫作,安娜的批改速度總是趕不上學生...
前情提要 昨天通過一番資料分析,確認主辦方提供的 17,307 筆 training data 中,有 12,873 筆完全一模一樣的 essay 內容出現在...
前情提要 在前一天的內容中,我們透過設計提交 Simple Baseline 和 Retrieval-based Method 來間接地確認 hidden te...
前情提要 昨天我們從主題建模、prompt name 與 score 的分佈等,更全面地探勘本次賽題的訓練資料集;也透過設計一些專用於這種 code compe...
在一個充滿活力的校園里,安娜老師是深受學生喜愛的教師。但是這幾年她發現,在這個信息爆炸的時代,擁有良好的摘要能力變得尤為重要。然而,許多學生在總結時往往抓不住...
EDA (進階版) 🤔 摘要寫得和原文越像,老師給的分數會越高嗎? 直覺上來說,摘要和原文一點都不像,應該會超低分,代表根本沒有在根據原文寫作;但如果和原文一字...
前情提要 昨天我們提出訓練資料中那 426 筆超低分的 data ,可能是因為學生抄襲所以被懲罰才得到全部一模一樣的超低分。 我們今天要透過回答下面這三個問題來...
今天會帶大家一步一步解析本賽題第一名🥇的思路🤩,在過程中可以學到如何使用 LLM 生成 high quality 的假資料,並用 Meta pseudo lab...
在看了一堆解法分享後,看到第二名的做法真的會眼前一亮🤩,而且是絕對可以低成本偷學帶到其他賽題繼續使用的! 我們直接切入正題: 🥈 2nd Solution 第二...