【Day 0】前言

第 11 屆 iThome 鐵人賽

DAY 1

AI & Data

爬蟲在手、資料我有 - 30 天 Scrapy 爬蟲實戰系列第 1 篇

11th鐵人賽 python crawler webscraping scrapy

Rex Chien

2019-09-15 15:50:00

4321 瀏覽

分享至

動機

從簡單的商品到價提醒，到複雜的輿情警示、圖形辨識，「資料來源」都是基礎中的基礎。但網路上的資料龐大而且更新很快，總不可能都靠人工來蒐集資料。這時候就是爬蟲出場的時候了！爬蟲可以即時抓到網路上的資料，同時作些簡單的前處理後儲存起來，後面再進一步以這些資料來做訊息推播、趨勢預測或模型訓練等應用。

剛好前陣子有採集網路資料的需求，爬了三十幾個網站的資料。一開始是用單純的 requests + BeautifulSoup + Selenium 來採集；後來改用 Scrapy 框架來簡化開發流程。接下來 30 + n 天會跟大家一起了解爬蟲的基礎到採用 Scrapy 的轉變。

規劃

接下來的文章大概會分成幾個部分 ~~（包括但不限於）~~：

事前準備

這邊假設大家都會基礎的 python 了，所以不會多做說明。主要是準備爬蟲需要的相關環境、套件。

爬蟲基礎知識

介紹幾種常見的資料來源格式，並說明怎麼處理。

實作

找幾個不同類型的網站來爬看看！

Scrapy 介紹

介紹 Scrapy 框架，解釋一下為什麼要改用這個。

Scrapy 實作

把之前實作的爬蟲改用 Scrapy 來做。

資料應用

~~希望有機會講到這邊，~~ 試試看用這些資料來做一個屬於自己的 Line Bot！

【Day 1】環境準備

系列文

爬蟲在手、資料我有 - 30 天 Scrapy 爬蟲實戰共 33 篇

RSS系列文訂閱系列文

129 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

爬蟲在手、資料我有 - 30 天 Scrapy 爬蟲實戰系列 第 1 篇