Hands on Data Cleaning and Scraping 資料清理與爬蟲實作

kyt (tgnco1218)

iT邦新手 5 級 ‧ 點數 209

9129

累計瀏覽數

9人

在追蹤

站內簡訊追蹤

鐵人檔案

第 11 屆 iThome 鐵人賽

回列表

AI & Data

Hands on Data Cleaning and Scraping 資料清理與爬蟲實作系列

打醬油剛(蹣跚)完成第二屆機器學習百日馬拉松，想藉此重點複習資料清理的部分，並爬取有興趣的數據來實際操作。
Just finished my 100 days challenge on machine learning basics and feel like I need to review and actually get hands on cleaning the data. This challenge will (hopefully) also contains some real world data scraping and cleaning.

鐵人鍊成｜共 30 篇文章｜ 25 人訂閱訂閱系列文 RSS系列文

0 Like 0 留言 9000 瀏覽

DAY 11

Day11 Data Visualization Tools: Plotly 視覺化資料工具：Plotly

Plotly是使用Python和Django框架構建的，前端使用JavaScript和可視化庫D3.js，HTML和CSS。使用Plotly可以創建出許多精美的...

2019-09-12 ‧ 由 kyt 分享

1 Like 0 留言 6414 瀏覽

DAY 12

Day12 Data Visualization Tools: Seaborn 視覺化資料工具：Seaborn

Seaborn是基於Matplotlib的Python繪圖庫，並有繪圖指令簡單、圖樣風格精美等優點。Seaborn is a Python visualizat...

2019-09-13 ‧ 由 kyt 分享

0 Like 0 留言 6301 瀏覽

DAY 13

Day13 Converting Continuous Variables into Discrete Values 連續型變數離散化

為什麼要把連續型變數離散化 What are the reasons of converting continuous variables into discr...

2019-09-14 ‧ 由 kyt 分享

1 Like 0 留言 3360 瀏覽

DAY 14

Day14 Feature Engineering, Kurtosis and Skewness 淺談特徵工程、峰度與偏度

特徵工程是把原始資料對應到後續評估分數的轉換過程，是在擬合模型前重要的步驟。常見特徵有：數值型特徵、類別型特徵與時間序列特徵，之後會有文章分別介紹。一般而言，我...

2019-09-15 ‧ 由 kyt 分享

1 Like 0 留言 889 瀏覽

DAY 15

Day15 Numerical Data 1/2 replace N/A or outlier 數值型特徵 1/2 填補N/A與離群值

在Day04的文章中介紹了幾種常見可供替補N/A或離群值的數值，本日文章來實際操做，以Kaggle競賽Titanic: Machine Learning fro...

2019-09-16 ‧ 由 kyt 分享

0 Like 0 留言 2404 瀏覽

DAY 16

Day16 Numerical Data 2/2 reduce skewness 數值型特徵 2/2 去除偏態

在Day14的文章中我們討論到判讀資料的偏態，當資料中離群資料比例很高，或平均值沒有代表性時，便可考慮使用以下面幾種方式去除偏態：對數去偏 - 使用自然對數...

2019-09-17 ‧ 由 kyt 分享

0 Like 0 留言 2035 瀏覽

DAY 17

Day17 Categorical Data 1/2 mean encoding 類別型特徵 1/2 均值編碼

除了Day03討論過的獨熱編碼與標籤編碼兩種基礎編碼方式，均值編碼也是另一種類別型特徵常用的編碼方式。一般處理類別型特徵預設採用標籤編碼，除非該特徵重要性高，且...

2019-09-18 ‧ 由 kyt 分享

0 Like 0 留言 1376 瀏覽

DAY 18

Day18 Categorical Data 2/2 counting and feature hashing 類別型特徵 2/2 計數編碼與特徵雜湊

計數編碼如果類別型特徵的目標值與類別筆數呈相關，可將筆數本身當作特徵，例如：自然語言處理中，字詞的計數編碼稱為詞頻，是自然語言處理中很重要的特徵。 Count...

2019-09-19 ‧ 由 kyt 分享

0 Like 0 留言 951 瀏覽

DAY 19

Day19 Time Series Feature 時間型特徵

時間型特徵最常見的處理方式 - 將特徵分解為年-月-日-時-分-秒 The most commonly used way: spliting time seri...

2019-09-20 ‧ 由 kyt 分享

0 Like 0 留言 1054 瀏覽

DAY 20

Day20 Airbnb in Berlin 1/5 booking rate 柏林Airbnb 1/5 訂房率

今天從Inside Airbnb下載的資料(calendar.csv)，針對德國柏林地區的Airbnb房源繁忙程度作分析。 The data (calendar...

2019-09-21 ‧ 由 kyt 分享

kyt的鐵人檔案

kyt的收藏

kyt的追蹤

kyt的Like

kyt的紀錄

kyt的訂閱列表

鐵人檔案

Hands on Data Cleaning and Scraping 資料清理與爬蟲實作 系列

標記使用者

Hands on Data Cleaning and Scraping 資料清理與爬蟲實作系列