從簡單的商品到價提醒,到複雜的輿情警示、圖形辨識,「資料來源」都是基礎中的基礎。但網路上的資料龐大而且更新很快,總不可能都靠人工來蒐集資料。這時候就是爬蟲出場的時候了!爬蟲可以即時抓到網路上的資料,同時作些簡單的前處理後儲存起來,後面再進一步以這些資料來做訊息推播、趨勢預測或模型訓練等應用。
剛好前陣子有採集網路資料的需求,爬了三十幾個網站的資料。一開始是用單純的 requests + BeautifulSoup + Selenium
來採集;後來改用 Scrapy
框架來簡化開發流程。接下來 30 + n 天會跟大家一起了解爬蟲的基礎到採用 Scrapy
的轉變。
接下來的文章大概會分成幾個部分 (包括但不限於):
這邊假設大家都會基礎的 python
了,所以不會多做說明。主要是準備爬蟲需要的相關環境、套件。
介紹幾種常見的資料來源格式,並說明怎麼處理。
找幾個不同類型的網站來爬看看!
介紹 Scrapy
框架,解釋一下為什麼要改用這個。
把之前實作的爬蟲改用 Scrapy
來做。
希望有機會講到這邊, 試試看用這些資料來做一個屬於自己的 Line Bot!