iT邦幫忙

鐵人檔案

第 11 屆 iThome 鐵人賽
回列表
AI & Data

Hands on Data Cleaning and Scraping 資料清理與爬蟲實作 系列

打醬油剛(蹣跚)完成第二屆機器學習百日馬拉松,想藉此重點複習資料清理的部分,並爬取有興趣的數據來實際操作。
Just finished my 100 days challenge on machine learning basics and feel like I need to review and actually get hands on cleaning the data. This challenge will (hopefully) also contains some real world data scraping and cleaning.

鐵人鍊成 | 共 30 篇文章 | 25 人訂閱 訂閱系列文 RSS系列文
DAY 11

Day11 Data Visualization Tools: Plotly 視覺化資料工具:Plotly

Plotly是使用Python和Django框架構建的,前端使用JavaScript和可視化庫D3.js,HTML和CSS。使用Plotly可以創建出許多精美的...

2019-09-12 ‧ 由 kyt 分享
DAY 12

Day12 Data Visualization Tools: Seaborn 視覺化資料工具:Seaborn

Seaborn是基於Matplotlib的Python繪圖庫,並有繪圖指令簡單、圖樣風格精美等優點。Seaborn is a Python visualizat...

2019-09-13 ‧ 由 kyt 分享
DAY 13

Day13 Converting Continuous Variables into Discrete Values 連續型變數離散化

為什麼要把連續型變數離散化 What are the reasons of converting continuous variables into discr...

2019-09-14 ‧ 由 kyt 分享
DAY 14

Day14 Feature Engineering, Kurtosis and Skewness 淺談特徵工程、峰度與偏度

特徵工程是把原始資料對應到後續評估分數的轉換過程,是在擬合模型前重要的步驟。常見特徵有:數值型特徵、類別型特徵與時間序列特徵,之後會有文章分別介紹。一般而言,我...

2019-09-15 ‧ 由 kyt 分享
DAY 15

Day15 Numerical Data 1/2 replace N/A or outlier 數值型特徵 1/2 填補N/A與離群值

在Day04的文章中介紹了幾種常見可供替補N/A或離群值的數值,本日文章來實際操做,以Kaggle競賽Titanic: Machine Learning fro...

2019-09-16 ‧ 由 kyt 分享
DAY 16

Day16 Numerical Data 2/2 reduce skewness 數值型特徵 2/2 去除偏態

在Day14的文章中我們討論到判讀資料的偏態,當資料中離群資料比例很高,或平均值沒有代表性時,便可考慮使用以下面幾種方式去除偏態: 對數去偏 - 使用自然對數...

2019-09-17 ‧ 由 kyt 分享
DAY 17

Day17 Categorical Data 1/2 mean encoding 類別型特徵 1/2 均值編碼

除了Day03討論過的獨熱編碼與標籤編碼兩種基礎編碼方式,均值編碼也是另一種類別型特徵常用的編碼方式。一般處理類別型特徵預設採用標籤編碼,除非該特徵重要性高,且...

2019-09-18 ‧ 由 kyt 分享
DAY 18

Day18 Categorical Data 2/2 counting and feature hashing 類別型特徵 2/2 計數編碼與特徵雜湊

計數編碼 如果類別型特徵的目標值與類別筆數呈相關,可將筆數本身當作特徵,例如:自然語言處理中,字詞的計數編碼稱為詞頻,是自然語言處理中很重要的特徵。 Count...

2019-09-19 ‧ 由 kyt 分享
DAY 19

Day19 Time Series Feature 時間型特徵

時間型特徵最常見的處理方式 - 將特徵分解為年-月-日-時-分-秒 The most commonly used way: spliting time seri...

2019-09-20 ‧ 由 kyt 分享
DAY 20

Day20 Airbnb in Berlin 1/5 booking rate 柏林Airbnb 1/5 訂房率

今天從Inside Airbnb下載的資料(calendar.csv),針對德國柏林地區的Airbnb房源繁忙程度作分析。 The data (calendar...

2019-09-21 ‧ 由 kyt 分享