iT邦幫忙

第 11 屆 iT 邦幫忙鐵人賽

DAY 1
4

動機

從簡單的商品到價提醒,到複雜的輿情警示、圖形辨識,「資料來源」都是基礎中的基礎。但網路上的資料龐大而且更新很快,總不可能都靠人工來蒐集資料。這時候就是爬蟲出場的時候了!爬蟲可以即時抓到網路上的資料,同時作些簡單的前處理後儲存起來,後面再進一步以這些資料來做訊息推播、趨勢預測或模型訓練等應用。

剛好前陣子有採集網路資料的需求,爬了三十幾個網站的資料。一開始是用單純的 requests + BeautifulSoup + Selenium 來採集;後來改用 Scrapy 框架來簡化開發流程。接下來 30 + n 天會跟大家一起了解爬蟲的基礎到採用 Scrapy 的轉變。

規劃

接下來的文章大概會分成幾個部分 (包括但不限於)

事前準備

這邊假設大家都會基礎的 python 了,所以不會多做說明。主要是準備爬蟲需要的相關環境、套件。

爬蟲基礎知識

介紹幾種常見的資料來源格式,並說明怎麼處理。

實作

找幾個不同類型的網站來爬看看!

Scrapy 介紹

介紹 Scrapy 框架,解釋一下為什麼要改用這個。

Scrapy 實作

把之前實作的爬蟲改用 Scrapy 來做。

資料應用

希望有機會講到這邊, 試試看用這些資料來做一個屬於自己的 Line Bot!


下一篇
【Day 1】環境準備
系列文
爬蟲在手、資料我有 - 30 天 Scrapy 爬蟲實戰33

尚未有邦友留言

立即登入留言