iT邦幫忙

第 12 屆 iThome 鐵人賽

DAY 1
1
自我挑戰組

爬蟲初體驗系列 第 1

Day_01 爬蟲介紹以及為什麼需要爬蟲

  • 分享至 

  • xImage
  •  

人家講爬蟲爬蟲,最主要目的就是將網路上的資料透過自動化的部分截取下來,擷取自己所需要的部分。
舉例:
-英文單字下載轉存成Excel,並將其匯入單字卡軟體
-紀錄人家拍賣的銷售量
-紀錄台灣出租網的資訊以及價格

因為網路上很多資料都是可以瀏覽的,但是要將其轉存並進行擷取還是需要一點技巧跟難度的。

但是大家不用擔心,畢竟這條路是一些大神走出來的,既然都可以透過瀏覽器觀看勢必上一定可以擷取的囉。

我主要學習是以Scrapy開始,由Scrapy開始介紹,會續會講解selenium以及分布式爬蟲等文章。

以一邊學習一邊分享的概念進行,因為人家歐洲所以開會先開文章儲存

我主要的開發工具
-Pycharm(目前是採用月付的部分,可以選擇單一開發工具或是全餐),價格會每年調降調降到一個階段
-Python(不意外)
-Windows終端機
*Windows 終端機有開放下載另一版本可以直接多開視窗。

SCRAPY官方網站
SCRAPY官方GITHUB

簡單介紹一下SCRAPY,你可以想像你可以將一個網址餵給SCRAPY,之後呢你針對這個網站的內容進行擷取動作。
大概有看過HTML格式都知道一個網站是如何一層一層組合而成的。
當然不外會都是透過一些分段格式或是CSS格式建構出來的。這些格式我們就可以透過SCRAPY來對他篩選。
篩選後呢你可以自訂義將其轉存至資料庫或是單一文件。

你可以想像如果你餵給SCRAPY多個連結,他也是比照辦理一一幫你處理到位。


下一篇
Day02_Scrapy安裝介紹以及架構說明
系列文
爬蟲初體驗4
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言