iT邦幫忙

鐵人檔案

第 11 屆 iThome 鐵人賽
回列表
AI & Data

Hands on Data Cleaning and Scraping 資料清理與爬蟲實作 系列

打醬油剛(蹣跚)完成第二屆機器學習百日馬拉松,想藉此重點複習資料清理的部分,並爬取有興趣的數據來實際操作。
Just finished my 100 days challenge on machine learning basics and feel like I need to review and actually get hands on cleaning the data. This challenge will (hopefully) also contains some real world data scraping and cleaning.

鐵人鍊成 | 共 30 篇文章 | 25 人訂閱 訂閱系列文 RSS系列文
DAY 21

Day21 Airbnb in Berlin 2/5 listings overview 柏林Airbnb 2/5 房源概述

今天從Inside Airbnb下載的資料(listing.csv),針對德國柏林地區的Airbnb房源初步分析。 The data (listing.csv)...

2019-09-22 ‧ 由 kyt 分享
DAY 22

Day22 Airbnb in Berlin 3/5 the ring zone 柏林Airbnb 3/5 蛋黃區

到柏林旅遊,會發現市區交通票券由放射狀分為A、B、C三個區塊,想買長期票券分法只有A+B區、B+C區、A+B+C區,以一般旅遊民眾而言,移動範圍多會在A+B區,...

2019-09-23 ‧ 由 kyt 分享
DAY 23

Day23 Airbnb in Berlin 4/5 listings analysis 柏林Airbnb 4/5 蛋黃區房源分析

昨日(Day22)的文章中,先以低排放區郵遞區號篩選取出房源列表後排序,取房源數量最多的前十名(主要是柏林占地太大,Airbnb上劃分成了133個區,加上交通因...

2019-09-24 ‧ 由 kyt 分享
DAY 24

Day24 Airbnb in Berlin 5/5 the ring zone summary 柏林Airbnb 5/5 蛋黃區房源分析小結

今天針對前幾日視覺化的結果,來篩選一些符合我需求的房源。Today we will filter out some listings that fit my n...

2019-09-25 ‧ 由 kyt 分享
DAY 25

Day25 Beautiful Soup Try Out: Stepstone Posting 美麗的湯爬蟲初體驗:達石職缺

初次嘗試使用美味的湯爬資料,先做小一點的試試水。今天是從德國求職網站達石來下載職缺列表,先試看看不翻頁只爬第一頁100筆職缺訊息。Today is my fir...

2019-09-26 ‧ 由 kyt 分享
DAY 26

Day26 Stepstone Posting 達石職缺

# 載入所需套件 import the packages we need import pandas as pd import numpy as np im...

2019-09-27 ‧ 由 kyt 分享
DAY 27

Day27 BS4 Scrape from Youtube 1/2 用美麗的湯爬取Youtube 1/2

今天嘗試來用美麗的湯從Youtube爬取影片標題、連結、觀看次數與簡介。爬取的資料是一個好聽德國樂團Berge的Youtube搜尋頁面(是想趁機推坑吧笑死)。T...

2019-09-28 ‧ 由 kyt 分享
DAY 28

Day28 BS4: Scrape from Youtube 2/2 用美麗的湯爬取Youtube 2/2

延續昨日的文章,今天要把Berge的Youtube搜尋頁面縮圖連結存下來。Today we will continue last article to scra...

2019-09-29 ‧ 由 kyt 分享
DAY 29

Day29 Scraping from IMDb with Selenium 1/2 用Selenium爬取IMDb 1/2

先來看電影評分網站IMDb資料長相,抓取需要的資訊存起來,程式碼是參考自這篇文章。Take a look at how IMDb save the movie...

2019-09-30 ‧ 由 kyt 分享
DAY 30

Day30 Scraping from IMDb with Selenium 2/2 用Selenium爬取IMDb 2/2

本篇文章是使用Chrome瀏覽器搭配Selenium爬取電影評分網站IMDb資料,一些前置作業如下: 先進到這個網站確定目前所使用的Chrome版本。 到Ch...

2019-10-01 ‧ 由 kyt 分享