iT邦幫忙

data science相關文章
共有 238 則文章

技術 【Day 03】國際很夯的 Certified Analytics Professional (CAP) 數據分析師證照~

INFORMS(國際運籌學和管理科學協會)專業數據分析認證 引用自Certified Analytics Professional 業務理解(Busin...

鐵人賽 自我挑戰組 DAY 7

技術 Day 7|新增 Series 或 DataFrame

  嗨!大家好!了解完如何載入和觀察資料後,接著將開始一系列對資料內容的操作,今天的主題為「新增資料」,內容分別以Pandas兩種常見的數據結構說明,包含:...

鐵人賽 自我挑戰組 DAY 18

技術 Day 18|資料的分組和聚合

  在大型數據當中,有時我們會需要透過群組的方式概括整體資料,除了用以觀察之外,也能進一步深入處理,本文將分享如何使用資料的分組和聚合操作,內容包含: 資料分...

鐵人賽 自我挑戰組 DAY 11

技術 Day 11|資料快速排序操作

  完成資料篩選後,我們可以針對特定欄位進行排序,幫助我們快速整理與觀察,以下將透過案例替大家介紹兩種資料排序的方式,內容包含: 根據數值(value)排序...

鐵人賽 自我挑戰組 DAY 30

技術 Day 30|Pandas 完賽!

嗨!大家好!我是Eva!一位正努力跨進資料科學領域的女子!沒想到寫著寫著 30 天的日子就這樣過去了,能完成挑戰實在太感動了 😭 ■ 系列回顧 在這 30 天挑...

鐵人賽 自我挑戰組 DAY 14

技術 Day 14|資料清理-填補篇

  除了採用「刪除」的方式清理資料外,為確保數據的完整性,「填補」的操作也是另一種常見的方式,本文將說明資料清理中有關填補的操作方法,內容包含: 常數填補 統...

鐵人賽 自我挑戰組 DAY 6

技術 Day 6|實戰讀取並觀察外部資料

  在進行數據分析前,需要先了解資料的內容,以利後續資料清理、特徵工程等處理,因此本篇將延續昨日主題,以實際案例實作一次讀取外部資料,並使用基本語法觀察資料內容...

鐵人賽 AI/ ML & Data DAY 7

技術 [Day 7]別著急訓練模型,挖掘好用的 feature 是成功的一半: EDA 實戰演練(中)- 從 Linguistic 和 Semantic 的角度計算文本相似度

EDA (進階版) 🤔 摘要寫得和原文越像,老師給的分數會越高嗎? 直覺上來說,摘要和原文一點都不像,應該會超低分,代表根本沒有在根據原文寫作;但如果和原文一字...

鐵人賽 AI & Data DAY 30

技術 機器學習 挑戰 - Day 9 (完) + 完賽感想

續上一篇機器學習 挑戰 - Day 8 我想使用最後一篇文章來回顧我在第0天的原始計劃以及實際所做的事情。 回報時間框架: 日內交易(每日)- 我主要關注每日...

鐵人賽 自我挑戰組 DAY 28

技術 Day 28|Interview Query - Complete Addresses

■ 題目|Interview Query - Complete Addresses You’re given two dataframes. One conta...

技術 每個數據科學候選人都應該知道的 5 項技能

據估計,我們每天生成大約 2.5 萬億字節的數據。因此,構建有針對性的方法來導航和分析這些數據變得非常重要,這些數據對於理解全球各種公司和企業的戰略運營至關重要...

鐵人賽 自我挑戰組 DAY 24

技術 Day 24|Interview Query - Good Grades and Favorite Color

  先前,我們大約花了三週的時間學習 Pandas 的操作,是時候好好驗收學習成果了!從今天開始,我將每天和大家分享一道題目,親自撰寫解法,並提出我的解題思維,...

技術 How Modern Customer Success Is Powered by Data Science

Every day, customer success teams interact with tens of thousands of customers....

鐵人賽 AI/ ML & Data DAY 3

技術 [Day 3] Kaggle 自動作文評分競賽(二)- 比賽用的隱藏測試資料也和訓練資料一樣,有同樣的來源嗎?

前情提要 昨天通過一番資料分析,確認主辦方提供的 17,307 筆 training data 中,有 12,873 筆完全一模一樣的 essay 內容出現在...

鐵人賽 自我挑戰組 DAY 1

技術 Day 1|Pandas 開賽!

嗨!大家好!我是Eva!一位正努力跨進資料科學領域的女子!這是我首次撰寫技術文章,也是第一次挑戰30天日更,希望能挑戰成功!第一篇文章,就讓我簡單介紹參賽動機、...

鐵人賽 自我挑戰組 DAY 8

技術 Day 8|資料運算的加減乘除

  資料的運算是整理大型數據常見的操作,本篇將搭配新增資料的操作,以案例分享 DataFrame 的加減乘除,方便我們利用 Pandas 快速整理數據,以下內容...

鐵人賽 AI/ ML & Data DAY 10

技術 [Day 10]Head Mask Pooling 池化大法好🪄🦄-解析第二三名的優勝作法:Head Mask Pooling 與 Multi-Task Learning

在看了一堆解法分享後,看到第二名的做法真的會眼前一亮🤩,而且是絕對可以低成本偷學帶到其他賽題繼續使用的! 我們直接切入正題: 🥈 2nd Solution 第二...

鐵人賽 自我挑戰組 DAY 10

技術 Day 10|資料的篩選與過濾

  在進行大量的資料處理時,有時會需要取得符合特定條件的資料,以利後續的觀察與操作,此時就會使用到資料篩選和過濾的技能,今天將以案例搭配 loc[] 函數和大家...

鐵人賽 自我挑戰組 DAY 13

技術 Day 13|資料清理-刪除篇

  在處理資料集時,資料清理是不可或缺的步驟,刪除不需要的數據或特徵以確保數據的品質是常見的操作,本文將說明資料清理中有關刪除的操作方法,內容包含: 刪除缺失...

鐵人賽 自我挑戰組 DAY 16

技術 Day 16|自定義轉換必學的apply()函數

  在昨天標籤編碼法(Label Encoding)的舉例中,我們可以透過 sklearn 中的函數 LabelEncoder 將類別型態轉為數值型態,那大家是...

鐵人賽 自我挑戰組 DAY 25

技術 Day 25|Interview Query - Over 100 Dollars

■ 題目|Interview Query - Over 100 Dollars You’re given two dataframes: transaction...

鐵人賽 自我挑戰組 DAY 9

技術 Day 9|資料運算的常見函數

  資料的運算除了基本的加減乘除之外,也能透過函數快速觀察和取得常見的統計值,完成資料匯總,以下將以實例介紹六種常見函數,包含: 最大值與最小值 資料加總與筆...

鐵人賽 自我挑戰組 DAY 26

技術 Day 26|Interview Query - Rain on Rainy Days

■ 題目|Interview Query - Rain on Rainy Days You’re given a dataframe df_rain conta...

鐵人賽 自我挑戰組 DAY 29

技術 Day 29|Interview Query - Customer Analysis

■ 題目|Interview Query - Customer Analysis You’re given a dataframe containing sal...

鐵人賽 自我挑戰組 DAY 27

技術 Day 27|Interview Query - Impute Median

■ 題目|Interview Query - Impute Median You’re given a dataframe df_cheeses contain...

鐵人賽 AI/ ML & Data DAY 6

技術 [Day 6] 別著急訓練模型,挖掘好用的 feature 是成功的一半: EDA 實戰演練(上)

在一個充滿活力的校園里,安娜老師是深受學生喜愛的教師。但是這幾年她發現,在這個信息爆炸的時代,擁有良好的摘要能力變得尤為重要。然而,許多學生在總結時往往抓不住...