iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

0 Like 0 留言 940 瀏覽

技術【Day 03】國際很夯的 Certified Analytics Professional (CAP) 數據分析師證照～

INFORMS（國際運籌學和管理科學協會）專業數據分析認證引用自Certified Analytics Professional 業務理解（Busin...

sharonchen ‧ 2023-10-16

0 Like 0 留言 897 瀏覽

鐵人賽自我挑戰組 DAY 7

Pandas｜資料前處理工具系列第 7 篇

技術 Day 7｜新增 Series 或 DataFrame

　　嗨！大家好！了解完如何載入和觀察資料後，接著將開始一系列對資料內容的操作，今天的主題為「新增資料」，內容分別以Pandas兩種常見的數據結構說明，包含：...

Eva ‧ 2023-09-22

0 Like 0 留言 874 瀏覽

鐵人賽自我挑戰組 DAY 18

Pandas｜資料前處理工具系列第 18 篇

技術 Day 18｜資料的分組和聚合

　　在大型數據當中，有時我們會需要透過群組的方式概括整體資料，除了用以觀察之外，也能進一步深入處理，本文將分享如何使用資料的分組和聚合操作，內容包含：資料分...

Eva ‧ 2023-10-03

0 Like 0 留言 870 瀏覽

鐵人賽自我挑戰組 DAY 11

Pandas｜資料前處理工具系列第 11 篇

技術 Day 11｜資料快速排序操作

　　完成資料篩選後，我們可以針對特定欄位進行排序，幫助我們快速整理與觀察，以下將透過案例替大家介紹兩種資料排序的方式，內容包含：根據數值（value）排序...

Eva ‧ 2023-09-26

0 Like 0 留言 867 瀏覽

鐵人賽自我挑戰組 DAY 30

Pandas｜資料前處理工具系列第 30 篇

技術 Day 30｜Pandas 完賽！

嗨！大家好！我是Eva！一位正努力跨進資料科學領域的女子！沒想到寫著寫著 30 天的日子就這樣過去了，能完成挑戰實在太感動了 😭 ■ 系列回顧在這 30 天挑...

Eva ‧ 2023-10-15

0 Like 0 留言 859 瀏覽

鐵人賽自我挑戰組 DAY 14

Pandas｜資料前處理工具系列第 14 篇

技術 Day 14｜資料清理－填補篇

　　除了採用「刪除」的方式清理資料外，為確保數據的完整性，「填補」的操作也是另一種常見的方式，本文將說明資料清理中有關填補的操作方法，內容包含：常數填補統...

Eva ‧ 2023-09-29

0 Like 0 留言 842 瀏覽

鐵人賽自我挑戰組 DAY 6

Pandas｜資料前處理工具系列第 6 篇

技術 Day 6｜實戰讀取並觀察外部資料

　　在進行數據分析前，需要先了解資料的內容，以利後續資料清理、特徵工程等處理，因此本篇將延續昨日主題，以實際案例實作一次讀取外部資料，並使用基本語法觀察資料內容...

Eva ‧ 2023-09-21

1 Like 0 留言 840 瀏覽

鐵人賽 AI/ ML & Data DAY 4

一個Kaggle金牌解法是如何誕生的？跟隨Kaggle NLP競賽高手的討論，探索解題脈絡系列第 4 篇

技術 [Day 4] 探究 Train vs. Test Set 的真實差距:善用 Topic Modeling, Cross / Adversarial Validation等實用技巧！

前情提要在前一天的內容中，我們透過設計提交 Simple Baseline 和 Retrieval-based Method 來間接地確認 hidden te...

壓縮甜 ‧ 2024-09-18

1 Like 0 留言 839 瀏覽

鐵人賽 AI/ ML & Data DAY 7

一個Kaggle金牌解法是如何誕生的？跟隨Kaggle NLP競賽高手的討論，探索解題脈絡系列第 7 篇

技術 [Day 7]別著急訓練模型，挖掘好用的 feature 是成功的一半: EDA 實戰演練（中）- 從 Linguistic 和 Semantic 的角度計算文本相似度

EDA (進階版) 🤔 摘要寫得和原文越像，老師給的分數會越高嗎？直覺上來說，摘要和原文一點都不像，應該會超低分，代表根本沒有在根據原文寫作；但如果和原文一字...

壓縮甜 ‧ 2024-09-21

2 Like 0 留言 830 瀏覽

鐵人賽 AI/ ML & Data DAY 5

一個Kaggle金牌解法是如何誕生的？跟隨Kaggle NLP競賽高手的討論，探索解題脈絡系列第 5 篇

技術 [Day 5] Kaggle 自動作文評分競賽（四）- 前四名優勝作法解析：彼此制衡的兩階段式微調、發揮奇效的 pseudo-labeling、集成多種 BERT Pooling 與最優化策略

前情提要昨天我們從主題建模、prompt name 與 score 的分佈等，更全面地探勘本次賽題的訓練資料集；也透過設計一些專用於這種 code compe...

壓縮甜 ‧ 2024-09-19

1 Like 1 留言 821 瀏覽

鐵人賽 AI & Data DAY 30

資料分析的硬體以及軟體學習以及成長心得系列第 30 篇

技術機器學習挑戰 - Day 9 (完) + 完賽感想

續上一篇機器學習挑戰 - Day 8 我想使用最後一篇文章來回顧我在第0天的原始計劃以及實際所做的事情。回報時間框架：日內交易（每日）- 我主要關注每日...

Papii ‧ 2023-10-15 ‧團隊dbt 和 dbt 以外有趣的事

0 Like 0 留言 814 瀏覽

鐵人賽自我挑戰組 DAY 28

Pandas｜資料前處理工具系列第 28 篇

技術 Day 28｜Interview Query - Complete Addresses

■ 題目｜Interview Query - Complete Addresses You’re given two dataframes. One conta...

Eva ‧ 2023-10-13

2 Like 0 留言 803 瀏覽

技術每個數據科學候選人都應該知道的 5 項技能

據估計，我們每天生成大約 2.5 萬億字節的數據。因此，構建有針對性的方法來導航和分析這些數據變得非常重要，這些數據對於理解全球各種公司和企業的戰略運營至關重要...

changchen ‧ 2022-02-23

0 Like 0 留言 760 瀏覽

鐵人賽自我挑戰組 DAY 24

Pandas｜資料前處理工具系列第 24 篇

技術 Day 24｜Interview Query - Good Grades and Favorite Color

　　先前，我們大約花了三週的時間學習 Pandas 的操作，是時候好好驗收學習成果了！從今天開始，我將每天和大家分享一道題目，親自撰寫解法，並提出我的解題思維，...

Eva ‧ 2023-10-09

0 Like 0 留言 758 瀏覽

技術 How Modern Customer Success Is Powered by Data Science

Every day, customer success teams interact with tens of thousands of customers....

john_alex ‧ 2023-01-24

1 Like 0 留言 745 瀏覽

鐵人賽 AI/ ML & Data DAY 3

一個Kaggle金牌解法是如何誕生的？跟隨Kaggle NLP競賽高手的討論，探索解題脈絡系列第 3 篇

技術 [Day 3] Kaggle 自動作文評分競賽（二）- 比賽用的隱藏測試資料也和訓練資料一樣，有同樣的來源嗎？

前情提要昨天通過一番資料分析，確認主辦方提供的 17,307 筆 training data 中，有 12,873 筆完全一模一樣的 essay 內容出現在...

壓縮甜 ‧ 2024-09-17

0 Like 1 留言 729 瀏覽

鐵人賽自我挑戰組 DAY 1

Pandas｜資料前處理工具系列第 1 篇

技術 Day 1｜Pandas 開賽！

嗨！大家好！我是Eva！一位正努力跨進資料科學領域的女子！這是我首次撰寫技術文章，也是第一次挑戰30天日更，希望能挑戰成功！第一篇文章，就讓我簡單介紹參賽動機、...

Eva ‧ 2023-09-16

0 Like 0 留言 661 瀏覽

鐵人賽自我挑戰組 DAY 8

Pandas｜資料前處理工具系列第 8 篇

技術 Day 8｜資料運算的加減乘除

　　資料的運算是整理大型數據常見的操作，本篇將搭配新增資料的操作，以案例分享 DataFrame 的加減乘除，方便我們利用 Pandas 快速整理數據，以下內容...

Eva ‧ 2023-09-23

1 Like 0 留言 647 瀏覽

鐵人賽 AI/ ML & Data DAY 10

一個Kaggle金牌解法是如何誕生的？跟隨Kaggle NLP競賽高手的討論，探索解題脈絡系列第 10 篇

技術 [Day 10]Head Mask Pooling 池化大法好🪄🦄-解析第二三名的優勝作法：Head Mask Pooling 與 Multi-Task Learning

在看了一堆解法分享後，看到第二名的做法真的會眼前一亮🤩，而且是絕對可以低成本偷學帶到其他賽題繼續使用的！我們直接切入正題： 🥈 2nd Solution 第二...

壓縮甜 ‧ 2024-09-24

0 Like 0 留言 640 瀏覽

鐵人賽自我挑戰組 DAY 10

Pandas｜資料前處理工具系列第 10 篇

技術 Day 10｜資料的篩選與過濾

　　在進行大量的資料處理時，有時會需要取得符合特定條件的資料，以利後續的觀察與操作，此時就會使用到資料篩選和過濾的技能，今天將以案例搭配 loc[] 函數和大家...

Eva ‧ 2023-09-25

0 Like 0 留言 640 瀏覽

鐵人賽自我挑戰組 DAY 13

Pandas｜資料前處理工具系列第 13 篇

技術 Day 13｜資料清理－刪除篇

　　在處理資料集時，資料清理是不可或缺的步驟，刪除不需要的數據或特徵以確保數據的品質是常見的操作，本文將說明資料清理中有關刪除的操作方法，內容包含：刪除缺失...

Eva ‧ 2023-09-28

0 Like 0 留言 617 瀏覽

鐵人賽自我挑戰組 DAY 16

Pandas｜資料前處理工具系列第 16 篇

技術 Day 16｜自定義轉換必學的apply()函數

　　在昨天標籤編碼法（Label Encoding）的舉例中，我們可以透過 sklearn 中的函數 LabelEncoder 將類別型態轉為數值型態，那大家是...

Eva ‧ 2023-10-01

0 Like 0 留言 613 瀏覽

鐵人賽自我挑戰組 DAY 25

Pandas｜資料前處理工具系列第 25 篇

技術 Day 25｜Interview Query - Over 100 Dollars

■ 題目｜Interview Query - Over 100 Dollars You’re given two dataframes: transaction...

Eva ‧ 2023-10-10

0 Like 0 留言 609 瀏覽

鐵人賽自我挑戰組 DAY 9

Pandas｜資料前處理工具系列第 9 篇

技術 Day 9｜資料運算的常見函數

　　資料的運算除了基本的加減乘除之外，也能透過函數快速觀察和取得常見的統計值，完成資料匯總，以下將以實例介紹六種常見函數，包含：最大值與最小值資料加總與筆...

Eva ‧ 2023-09-24

0 Like 0 留言 605 瀏覽

鐵人賽自我挑戰組 DAY 26

Pandas｜資料前處理工具系列第 26 篇

技術 Day 26｜Interview Query - Rain on Rainy Days

■ 題目｜Interview Query - Rain on Rainy Days You’re given a dataframe df_rain conta...

Eva ‧ 2023-10-11

0 Like 0 留言 592 瀏覽

鐵人賽自我挑戰組 DAY 29

Pandas｜資料前處理工具系列第 29 篇

技術 Day 29｜Interview Query - Customer Analysis

■ 題目｜Interview Query - Customer Analysis You’re given a dataframe containing sal...

Eva ‧ 2023-10-14

0 Like 0 留言 586 瀏覽

鐵人賽自我挑戰組 DAY 27

Pandas｜資料前處理工具系列第 27 篇

技術 Day 27｜Interview Query - Impute Median

■ 題目｜Interview Query - Impute Median You’re given a dataframe df_cheeses contain...

Eva ‧ 2023-10-12

1 Like 0 留言 549 瀏覽

鐵人賽 AI/ ML & Data DAY 6

一個Kaggle金牌解法是如何誕生的？跟隨Kaggle NLP競賽高手的討論，探索解題脈絡系列第 6 篇

技術 [Day 6] 別著急訓練模型，挖掘好用的 feature 是成功的一半: EDA 實戰演練（上）

在一個充滿活力的校園里，安娜老師是深受學生喜愛的教師。但是這幾年她發現，在這個信息爆炸的時代，擁有良好的摘要能力變得尤為重要。然而，許多學生在總結時往往抓不住...

壓縮甜 ‧ 2024-09-20

技術 【Day 03】國際很夯的 Certified Analytics Professional (CAP) 數據分析師證照～