iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

1 Like 0 留言 1378 瀏覽

鐵人賽 AI & Data DAY 20

先別急著學 Python | The Secret to Success in Python 系列第 20 篇

技術 Ɖ20-溫沙拉/ 進階樞紐分析表

進階樞紐分析表 Pivot table 回歸昨天提到的，大多數人可能都有在Excel中使用透視表的經驗。 Pandas 提供了一個類似的函數，叫做 Pivot_...

juck30808 ‧ 2022-10-04

1 Like 0 留言 1356 瀏覽

鐵人賽 AI/ ML & Data DAY 2

一個Kaggle金牌解法是如何誕生的？跟隨Kaggle NLP競賽高手的討論，探索解題脈絡系列第 2 篇

技術 [Day 2] Kaggle 自動作文評分競賽（一）- 淺談數據洩露與內容匹配：如何確認訓練數據中的潛在泄漏？

在一個平凡的周末午後，高中老師安娜埋首於堆積如山的學生作文中。每一篇作文都承載著學生們的心血與努力，但三個班每人每週一篇長文寫作，安娜的批改速度總是趕不上學生...

壓縮甜 ‧ 2024-09-16

1 Like 0 留言 1343 瀏覽

鐵人賽 AI & Data DAY 25

先別急著學 Python | The Secret to Success in Python 系列第 25 篇

技術 Ɖ25-布朗尼/ Numpy 多維陣列呈現

布朗尼 Chocolate brownie 邁入倒數的五天了，轉眼間發現30天的挑戰賽其實過得非常快，許多內容皆在轉眼間。而最後一篇章節我所要講的主題稱為布朗尼...

juck30808 ‧ 2022-10-09

1 Like 0 留言 1334 瀏覽

鐵人賽 AI/ ML & Data DAY 15

一個Kaggle金牌解法是如何誕生的？跟隨Kaggle NLP競賽高手的討論，探索解題脈絡系列第 15 篇

技術 [Day 15]🧟成為特級LLM咒言師的第四天 - 為什麼"lucrarea"咒語會這麼強大？一些實驗設計與思考 - 淺談文本對抗攻擊(Adversarial Attack)實作篇

昨天提到第一名利用 T5-base 模型的弱點，在提交的 prompt 後面瘋狂重複"lucrarea"這個神秘咒語，就能有效提高自身和正確...

壓縮甜 ‧ 2024-09-29

0 Like 0 留言 1309 瀏覽

鐵人賽 AI & Data DAY 26

30天把AI知識傳授給女友系列第 26 篇

技術 Day26 建立 Pyorch 的自訂資料集和 DataLoader

今天介紹的內容與 Day11、Day12 很像，我們需要建立資料集還有 DataLoader，首先我們先引入需要用到的套件，並且定義資料處理的流程： from...

彼得叩叩 ‧ 2023-10-01

0 Like 0 留言 1295 瀏覽

鐵人賽 AI & Data DAY 14

跟top kaggler學習如何贏得資料分析競賽系列第 14 篇

技術 [Day 14] 以 Springleaf competition 實作 EDA

步驟 step 0 kaggle 網站找一個預測(結果是0或1)競賽 step 1 import libraries step 2 load the data...

madeleine ‧ 2019-09-15

1 Like 0 留言 1291 瀏覽

鐵人賽 AI/ ML & Data DAY 25

一個Kaggle金牌解法是如何誕生的？跟隨Kaggle NLP競賽高手的討論，探索解題脈絡系列第 25 篇

技術 [Day25]誰說打kaggle比賽一定要訓練模型？從第三名的解法看 Self-Consistency + Code Reasoning 之外的比賽工程技巧

前言昨天我們介紹了第一名的作法，雖然很精彩，但是他們在前期的兩階段訓練中（可能也是最重要的一部分）耗費了對個人參賽者（非實驗室）來說巨大的算力(八張 H100...

壓縮甜 ‧ 2024-10-09

1 Like 0 留言 1266 瀏覽

鐵人賽 AI/ ML & Data DAY 13

一個Kaggle金牌解法是如何誕生的？跟隨Kaggle NLP競賽高手的討論，探索解題脈絡系列第 13 篇

技術 [Day 13]🧟成為特級LLM咒言師的第二天 - 找 Mean Prompt 不用那麼麻煩：分佈相似度驅動的Mean Prompt優化

不知道你會不會覺得，昨天介紹的解法中，第一步「不斷迭代 mean prompt 以優化這個 prompt」，需要每做1個或n個對 token 的操作，就上傳到...

壓縮甜 ‧ 2024-09-27

0 Like 0 留言 1251 瀏覽

鐵人賽 AI & Data DAY 30

先別急著學 Python | The Secret to Success in Python 系列第 30 篇

技術 Ɖ30-結語/ 先別急著停下腳步

先別急著停下腳步清華大學的彭明輝老師在他的碩士新生手冊中，有寫到這句讓人感到玩味的話「什麼時候需要讀完弄懂一篇論文所有的恆等式推導過程? NEVER 你只需要...

juck30808 ‧ 2022-10-14

1 Like 0 留言 1242 瀏覽

鐵人賽 AI & Data DAY 22

先別急著學 Python | The Secret to Success in Python 系列第 22 篇

技術 Ɖ22-溫沙拉/ 進階樞紐匯出報表

樞紐匯出表 Reports from Pivot Table 上一篇關於數據透視表的文章描述瞭如何使用 pandas 的 pivot_table 功能將數據以一...

juck30808 ‧ 2022-10-06

0 Like 0 留言 1222 瀏覽

鐵人賽 AI & Data DAY 18

先別急著學 Python | The Secret to Success in Python 系列第 18 篇

技術 Ɖ18-溫沙拉/ 簡單樞紐分析與快速分析式輸出

溫沙拉 Salade Tiede 溫沙拉起源於法語＂Salade Tiede＂，溫沙拉就是所謂的溫熱吃的沙拉，以溫熱的醬汁搭配熟成後的肉類蔬食來搭配生菜烹調。與...

juck30808 ‧ 2022-10-02

0 Like 0 留言 1208 瀏覽

鐵人賽 AI & Data DAY 5

跟top kaggler學習如何贏得資料分析競賽系列第 5 篇

技術 [Day 5] Datetime Feature 與 Coordinate Feature (座標)

Datetime Feature 1. 週期性 - 週間星期或月, 季, 年, 秒, 分, 時等, 特別是規律性的 pattern2. 自特定(事件/活動)時間...

madeleine ‧ 2019-09-06

0 Like 0 留言 1179 瀏覽

鐵人賽 AI & Data DAY 14

先別急著學 Python | The Secret to Success in Python 系列第 14 篇

技術 Ɖ14-香料/ pd.merge 資料檔案合併分類計算

文件解析與數據清理昨天介紹了多個Excel文件合併數據與清理數據的流程，Python 和 Pandas 的結合對於整個操作而言是非常強大，它的可擴展性和功能更...

juck30808 ‧ 2022-09-28

3 Like 0 留言 1172 瀏覽

鐵人賽 AI/ ML & Data DAY 20

一個Kaggle金牌解法是如何誕生的？跟隨Kaggle NLP競賽高手的討論，探索解題脈絡系列第 20 篇

技術 [Day20]Encoder-only 與 Decoder-only 的路線之爭？淺談 Decoder-only 架構驅動的 RAG Pipeline 建置

[Day16]我們討論了本次賽題的兩種 baseline 的作法，一種是訓練 deberta 做 Multi-Class 或者是 Multi-Label 的任務...

壓縮甜 ‧ 2024-10-04

1 Like 0 留言 1122 瀏覽

鐵人賽 AI/ ML & Data DAY 24

一個Kaggle金牌解法是如何誕生的？跟隨Kaggle NLP競賽高手的討論，探索解題脈絡系列第 24 篇

技術 [Day24]Try and Error! 淺談整合 Tool-Integrated Reasoning 和 Code Debugging 能力的 Decode 策略

第一名由 Numina 和 Hugging Face 的大佬們合作拿下，解決了private test set 中的 29/50 個問題，最終喜提美金 $131...

壓縮甜 ‧ 2024-10-08

2 Like 0 留言 1109 瀏覽

鐵人賽 AI/ ML & Data DAY 1

一個Kaggle金牌解法是如何誕生的？跟隨Kaggle NLP競賽高手的討論，探索解題脈絡系列第 1 篇

技術 [Day 1] 緣起與文章主題介紹

緣起如果你剛踏入數據科學的世界，那你一定聽說過 Kaggle 這個神奇的地方。Kaggle 是一個全球最大的數據科學競賽平台，匯聚了來自世界各地的數據愛好者和...

壓縮甜 ‧ 2024-09-15

1 Like 0 留言 1079 瀏覽

鐵人賽 AI/ ML & Data DAY 22

一個Kaggle金牌解法是如何誕生的？跟隨Kaggle NLP競賽高手的討論，探索解題脈絡系列第 22 篇

技術 [Day 22] 9.11>9.9?! 當今的大語言模型能否破解困難的奧數問題？Coding能力好數學就會比較好嗎？

以前，來自世界各地的高中生每年都會參加國際數學奧林匹克競賽（IMO），解決代數、幾何和數論等領域的六個極具挑戰性的問題。今年4月，一項全新的競賽——AI數學奧...

壓縮甜 ‧ 2024-10-06

1 Like 0 留言 1065 瀏覽

鐵人賽 AI & Data DAY 17

先別急著學 Python | The Secret to Success in Python 系列第 17 篇

技術 Ɖ17-香料/ Excel 的進階尋找過濾

進階試算表工作 Advance Excel Tasks 今天是香料系列的最後一篇文章，代表著我們組合 Python 的功能講的差不多了，今天終於來到久久沒有說到...

juck30808 ‧ 2022-10-01

0 Like 0 留言 1039 瀏覽

鐵人賽 AI & Data DAY 19

先別急著學 Python | The Secret to Success in Python 系列第 19 篇

技術 Ɖ19-溫沙拉/ Excel 試算表上的簡單樞紐分析

樞紐分析表 Pivot table 樞紐分析表(Pivot Table)又被稱為資料透視表，是用來匯總不同列表的數據，把表進行分組(Grouping)並且對各個...

juck30808 ‧ 2022-10-03

1 Like 0 留言 1009 瀏覽

鐵人賽 AI & Data DAY 28

先別急著學 Python | The Secret to Success in Python 系列第 28 篇

技術 Ɖ28-布朗尼/ Pandas 的索引探討與應用

索引過程我們介紹過DataFrame表現得既像二維數組又像由共同的索引值組成的Series對象的字典。這能幫助你學習如何在DataFrame裡面進行數據選擇。...

juck30808 ‧ 2022-10-12

1 Like 0 留言 992 瀏覽

鐵人賽 AI & Data DAY 26

先別急著學 Python | The Secret to Success in Python 系列第 26 篇

技術 Ɖ26-布朗尼/ Numpy 常見四大類型介紹

從實作回到理論你知道，在過去25天中，我們從最初的 Kaggle 進行資料 Insign 尋找，我們解析了各式不同的資料類型，並且找到合適的方法將他做分析。後...

juck30808 ‧ 2022-10-10

0 Like 0 留言 966 瀏覽

鐵人賽 AI & Data DAY 15

先別急著學 Python | The Secret to Success in Python 系列第 15 篇

技術 Ɖ15-香料/ 快速尋找與過濾

尋找與過濾 Filter and Edit 最近有朋友跟我說我前陣子寫的關於 Pandas 中常見的 Excel 文章，對於幫助新的 Pandas 用戶將 Ex...

juck30808 ‧ 2022-09-29

0 Like 0 留言 925 瀏覽

鐵人賽 AI & Data DAY 12

跟top kaggler學習如何贏得資料分析競賽系列第 12 篇

技術 [Day 12] Validation / 驗證 - Part I

Validation / 驗證了解驗證和 overfitting 過度擬合的概念確定應進行的分割數以建立穩定的驗證用在比賽中進行訓練/測試分割的最常用方...

madeleine ‧ 2019-09-13

1 Like 0 留言 920 瀏覽

鐵人賽 AI & Data DAY 27

先別急著學 Python | The Secret to Success in Python 系列第 27 篇

技術 Ɖ27-布朗尼/ Pandas 的數據結構 Series 與 Datafram

從 Numpy 到 Pandas 的過程 NumPy 的數據結構為數據分析不可少的功能，雖然 ndarray 的功能已經很強大，但是當我們需要更多的靈活性的時候...

juck30808 ‧ 2022-10-11

1 Like 0 留言 884 瀏覽

鐵人賽 AI/ ML & Data DAY 16

一個Kaggle金牌解法是如何誕生的？跟隨Kaggle NLP競賽高手的討論，探索解題脈絡系列第 16 篇

技術 [Day 16]輕量級模型能否在複雜科學問題上追平ChatGPT呢？- OOM了怎麼辦？淺談 LLM 分層加載技術（layer-wise loading）、Perplexity 與 RAG 策略

在霓虹閃爍的賽博朋克城市深處，隱藏著一個不為人知的秘密競技場。這裡不再有血肉之軀的戰鬥，而是智能模型之間的對決。在這個地下世界里，參賽者們扮演著勇敢的戰士，...

壓縮甜 ‧ 2024-09-30

0 Like 0 留言 863 瀏覽

鐵人賽 AI & Data DAY 16

先別急著學 Python | The Secret to Success in Python 系列第 16 篇

技術 Ɖ16-香料/ 進階尋找與過濾

進階試算表工作 Advance Excel Tasks 上篇以 Excel 中的 Filter 函數為模型，說明各種 Pandas 索引方式，這篇文章中將重點介...

juck30808 ‧ 2022-09-30

0 Like 0 留言 842 瀏覽

鐵人賽自我挑戰組 DAY 6

Pandas｜資料前處理工具系列第 6 篇

技術 Day 6｜實戰讀取並觀察外部資料

　　在進行數據分析前，需要先了解資料的內容，以利後續資料清理、特徵工程等處理，因此本篇將延續昨日主題，以實際案例實作一次讀取外部資料，並使用基本語法觀察資料內容...

Eva ‧ 2023-09-21

1 Like 0 留言 840 瀏覽

鐵人賽 AI/ ML & Data DAY 4

一個Kaggle金牌解法是如何誕生的？跟隨Kaggle NLP競賽高手的討論，探索解題脈絡系列第 4 篇

技術 [Day 4] 探究 Train vs. Test Set 的真實差距:善用 Topic Modeling, Cross / Adversarial Validation等實用技巧！

前情提要在前一天的內容中，我們透過設計提交 Simple Baseline 和 Retrieval-based Method 來間接地確認 hidden te...

壓縮甜 ‧ 2024-09-18

1 Like 0 留言 839 瀏覽

鐵人賽 AI/ ML & Data DAY 7

一個Kaggle金牌解法是如何誕生的？跟隨Kaggle NLP競賽高手的討論，探索解題脈絡系列第 7 篇

技術 [Day 7]別著急訓練模型，挖掘好用的 feature 是成功的一半: EDA 實戰演練（中）- 從 Linguistic 和 Semantic 的角度計算文本相似度

EDA (進階版) 🤔 摘要寫得和原文越像，老師給的分數會越高嗎？直覺上來說，摘要和原文一點都不像，應該會超低分，代表根本沒有在根據原文寫作；但如果和原文一字...

壓縮甜 ‧ 2024-09-21

2 Like 0 留言 830 瀏覽

鐵人賽 AI/ ML & Data DAY 5

一個Kaggle金牌解法是如何誕生的？跟隨Kaggle NLP競賽高手的討論，探索解題脈絡系列第 5 篇

技術 [Day 5] Kaggle 自動作文評分競賽（四）- 前四名優勝作法解析：彼此制衡的兩階段式微調、發揮奇效的 pseudo-labeling、集成多種 BERT Pooling 與最優化策略

前情提要昨天我們從主題建模、prompt name 與 score 的分佈等，更全面地探勘本次賽題的訓練資料集；也透過設計一些專用於這種 code compe...

壓縮甜 ‧ 2024-09-19