打醬油剛(蹣跚)完成第二屆機器學習百日馬拉松,想藉此重點複習資料清理的部分,並爬取有興趣的數據來實際操作。
Just finished my 100 days challenge on machine learning basics and feel like I need to review and actually get hands on cleaning the data. This challenge will (hopefully) also contains some real world data scraping and cleaning.
今天從Inside Airbnb下載的資料(listing.csv),針對德國柏林地區的Airbnb房源初步分析。 The data (listing.csv)...
到柏林旅遊,會發現市區交通票券由放射狀分為A、B、C三個區塊,想買長期票券分法只有A+B區、B+C區、A+B+C區,以一般旅遊民眾而言,移動範圍多會在A+B區,...
昨日(Day22)的文章中,先以低排放區郵遞區號篩選取出房源列表後排序,取房源數量最多的前十名(主要是柏林占地太大,Airbnb上劃分成了133個區,加上交通因...
今天針對前幾日視覺化的結果,來篩選一些符合我需求的房源。Today we will filter out some listings that fit my n...
初次嘗試使用美味的湯爬資料,先做小一點的試試水。今天是從德國求職網站達石來下載職缺列表,先試看看不翻頁只爬第一頁100筆職缺訊息。Today is my fir...
# 載入所需套件 import the packages we need import pandas as pd import numpy as np im...
今天嘗試來用美麗的湯從Youtube爬取影片標題、連結、觀看次數與簡介。爬取的資料是一個好聽德國樂團Berge的Youtube搜尋頁面(是想趁機推坑吧笑死)。T...
延續昨日的文章,今天要把Berge的Youtube搜尋頁面縮圖連結存下來。Today we will continue last article to scra...
先來看電影評分網站IMDb資料長相,抓取需要的資訊存起來,程式碼是參考自這篇文章。Take a look at how IMDb save the movie...
本篇文章是使用Chrome瀏覽器搭配Selenium爬取電影評分網站IMDb資料,一些前置作業如下: 先進到這個網站確定目前所使用的Chrome版本。 到Ch...