iT邦幫忙

kaggle相關文章
共有 71 則文章
鐵人賽 AI & Data DAY 20

技術 Ɖ20-溫沙拉/ 進階樞紐分析表

進階樞紐分析表 Pivot table 回歸昨天提到的,大多數人可能都有在Excel中使用透視表的經驗。 Pandas 提供了一個類似的函數,叫做 Pivot_...

鐵人賽 AI/ ML & Data DAY 2

技術 [Day 2] Kaggle 自動作文評分競賽(一)- 淺談數據洩露與內容匹配:如何確認訓練數據中的潛在泄漏?

在一個平凡的周末午後,高中老師安娜埋首於堆積如山的學生作文中。每一篇作文都承載著學生們的心血與努力,但三個班每人每週一篇長文寫作,安娜的批改速度總是趕不上學生...

鐵人賽 AI & Data DAY 25

技術 Ɖ25-布朗尼/ Numpy 多維陣列呈現

布朗尼 Chocolate brownie 邁入倒數的五天了,轉眼間發現30天的挑戰賽其實過得非常快,許多內容皆在轉眼間。而最後一篇章節我所要講的主題稱為布朗尼...

鐵人賽 AI & Data DAY 26

技術 Day26 建立 Pyorch 的自訂資料集和 DataLoader

今天介紹的內容與 Day11、Day12 很像,我們需要建立資料集還有 DataLoader,首先我們先引入需要用到的套件,並且定義資料處理的流程: from...

鐵人賽 AI & Data DAY 14

技術 [Day 14] 以 Springleaf competition 實作 EDA

步驟 step 0 kaggle 網站找一個預測(結果是0或1)競賽 step 1 import libraries step 2 load the data...

鐵人賽 AI/ ML & Data DAY 25

技術 [Day25]誰說打kaggle比賽一定要訓練模型?從第三名的解法看 Self-Consistency + Code Reasoning 之外的比賽工程技巧

前言 昨天我們介紹了第一名的作法,雖然很精彩,但是他們在前期的兩階段訓練中(可能也是最重要的一部分)耗費了對個人參賽者(非實驗室)來說巨大的算力(八張 H100...

鐵人賽 AI/ ML & Data DAY 13

技術 [Day 13]🧟成為特級LLM咒言師的第二天 - 找 Mean Prompt 不用那麼麻煩:分佈相似度驅動的Mean Prompt優化

不知道你會不會覺得,昨天介紹的解法中,第一步「不斷迭代 mean prompt 以優化這個 prompt」,需要每做1個或n個對 token 的操作,就上傳到...

鐵人賽 AI & Data DAY 30

技術 Ɖ30-結語/ 先別急著停下腳步

先別急著停下腳步 清華大學的彭明輝老師在他的碩士新生手冊中,有寫到這句讓人感到玩味的話「什麼時候需要讀完弄懂一篇論文所有的恆等式推導過程? NEVER 你只需要...

鐵人賽 AI & Data DAY 22

技術 Ɖ22-溫沙拉/ 進階樞紐匯出報表

樞紐匯出表 Reports from Pivot Table 上一篇關於數據透視表的文章描述瞭如何使用 pandas 的 pivot_table 功能將數據以一...

鐵人賽 AI & Data DAY 18

技術 Ɖ18-溫沙拉/ 簡單樞紐分析與快速分析式輸出

溫沙拉 Salade Tiede 溫沙拉起源於法語"Salade Tiede",溫沙拉就是所謂的溫熱吃的沙拉,以溫熱的醬汁搭配熟成後的肉類蔬食來搭配生菜烹調。與...

鐵人賽 AI & Data DAY 5

技術 [Day 5] Datetime Feature 與 Coordinate Feature (座標)

Datetime Feature 1. 週期性 - 週間星期或月, 季, 年, 秒, 分, 時等, 特別是規律性的 pattern2. 自特定(事件/活動)時間...

鐵人賽 AI & Data DAY 14

技術 Ɖ14-香料/ pd.merge 資料檔案合併分類計算

文件解析與數據清理 昨天介紹了多個Excel文件合併數據與清理數據的流程,Python 和 Pandas 的結合對於整個操作而言是非常強大,它的可擴展性和功能更...

鐵人賽 AI/ ML & Data DAY 20

技術 [Day20]Encoder-only 與 Decoder-only 的路線之爭?淺談 Decoder-only 架構驅動的 RAG Pipeline 建置

[Day16]我們討論了本次賽題的兩種 baseline 的作法,一種是訓練 deberta 做 Multi-Class 或者是 Multi-Label 的任務...

鐵人賽 AI/ ML & Data DAY 24

技術 [Day24]Try and Error! 淺談整合 Tool-Integrated Reasoning 和 Code Debugging 能力的 Decode 策略

第一名由 Numina 和 Hugging Face 的大佬們合作拿下,解決了private test set 中的 29/50 個問題,最終喜提美金 $131...

鐵人賽 AI/ ML & Data DAY 1

技術 [Day 1] 緣起與文章主題介紹

緣起 如果你剛踏入數據科學的世界,那你一定聽說過 Kaggle 這個神奇的地方。Kaggle 是一個全球最大的數據科學競賽平台,匯聚了來自世界各地的數據愛好者和...

鐵人賽 AI/ ML & Data DAY 22

技術 [Day 22] 9.11>9.9?! 當今的大語言模型能否破解困難的奧數問題?Coding能力好數學就會比較好嗎?

以前,來自世界各地的高中生每年都會參加國際數學奧林匹克競賽(IMO),解決代數、幾何和數論等領域的六個極具挑戰性的問題。今年4月,一項全新的競賽——AI數學奧...

鐵人賽 AI & Data DAY 17

技術 Ɖ17-香料/ Excel 的進階尋找過濾

進階試算表工作 Advance Excel Tasks 今天是香料系列的最後一篇文章,代表著我們組合 Python 的功能講的差不多了,今天終於來到久久沒有說到...

鐵人賽 AI & Data DAY 19

技術 Ɖ19-溫沙拉/ Excel 試算表上的簡單樞紐分析

樞紐分析表 Pivot table 樞紐分析表(Pivot Table)又被稱為資料透視表,是用來匯總不同列表的數據,把表進行分組(Grouping)並且對各個...

鐵人賽 AI & Data DAY 28

技術 Ɖ28-布朗尼/ Pandas 的索引探討與應用

索引過程 我們介紹過DataFrame表現得既像二維數組又像由共同的索引值組成的Series對象的字典。這能幫助你學習如何在DataFrame裡面進行數據選擇。...

鐵人賽 AI & Data DAY 26

技術 Ɖ26-布朗尼/ Numpy 常見四大類型介紹

從實作回到理論 你知道,在過去25天中,我們從最初的 Kaggle 進行資料 Insign 尋找,我們解析了各式不同的資料類型,並且找到合適的方法將他做分析。後...

鐵人賽 AI & Data DAY 15

技術 Ɖ15-香料/ 快速尋找與過濾

尋找與過濾 Filter and Edit 最近有朋友跟我說我前陣子寫的關於 Pandas 中常見的 Excel 文章,對於幫助新的 Pandas 用戶將 Ex...

鐵人賽 AI & Data DAY 12

技術 [Day 12] Validation / 驗證 - Part I

Validation / 驗證 了解驗證和 overfitting 過度擬合的概念 確定應進行的分割數以建立穩定的驗證 用在比賽中進行訓練/測試分割的最常用方...

鐵人賽 AI & Data DAY 27

技術 Ɖ27-布朗尼/ Pandas 的數據結構 Series 與 Datafram

從 Numpy 到 Pandas 的過程 NumPy 的數據結構為數據分析不可少的功能,雖然 ndarray 的功能已經很強大,但是當我們需要更多的靈活性的時候...

鐵人賽 AI/ ML & Data DAY 16

技術 [Day 16]輕量級模型能否在複雜科學問題上追平ChatGPT呢?- OOM了怎麼辦?淺談 LLM 分層加載技術(layer-wise loading)、Perplexity 與 RAG 策略

在霓虹閃爍的賽博朋克城市深處,隱藏著一個不為人知的秘密競技場。這裡不再有血肉之軀的戰鬥,而是智能模型之間的對決。 在這個地下世界里,參賽者們扮演著勇敢的戰士,...

鐵人賽 AI & Data DAY 16

技術 Ɖ16-香料/ 進階尋找與過濾

進階試算表工作 Advance Excel Tasks 上篇以 Excel 中的 Filter 函數為模型,說明各種 Pandas 索引方式,這篇文章中將重點介...

鐵人賽 自我挑戰組 DAY 6

技術 Day 6|實戰讀取並觀察外部資料

  在進行數據分析前,需要先了解資料的內容,以利後續資料清理、特徵工程等處理,因此本篇將延續昨日主題,以實際案例實作一次讀取外部資料,並使用基本語法觀察資料內容...

鐵人賽 AI/ ML & Data DAY 7

技術 [Day 7]別著急訓練模型,挖掘好用的 feature 是成功的一半: EDA 實戰演練(中)- 從 Linguistic 和 Semantic 的角度計算文本相似度

EDA (進階版) 🤔 摘要寫得和原文越像,老師給的分數會越高嗎? 直覺上來說,摘要和原文一點都不像,應該會超低分,代表根本沒有在根據原文寫作;但如果和原文一字...