iT邦幫忙

2021 iThome 鐵人賽

DAY 4
0
Software Development

Python 爬蟲這樣學,一定是大拇指拉!系列 第 4

[Python 爬蟲這樣學,一定是大拇指拉!] DAY04 - 關於爬蟲

  • 分享至 

  • xImage
  •  

你只要懂爬蟲,爬蟲就會幫你

  • 引用自維基百科:

    網路爬蟲(英語:web crawler),也叫網路蜘蛛(spider),是一種用來自動瀏覽全球資訊網的網路機器人。其目的一般為編纂網路索引。

    網路搜尋引擎等站點通過爬蟲軟體更新自身的網站內容或其對其他網站的索引。網路爬蟲可以將自己所存取的頁面儲存下來,以便搜尋引擎事後生成索引供使用者搜尋。

    爬蟲存取網站的過程會消耗目標系統資源。不少網路系統並不默許爬蟲工作。因此在存取大量頁面時,爬蟲需要考慮到規劃、負載,還需要講「禮貌」。 不願意被爬蟲存取、被爬蟲主人知曉的公開站點可以使用robots.txt檔案之類的方法避免存取。這個檔案可以要求機器人只對網站的一部分進行索引,或完全不作處理。

簡而言之,就是可以幫你自動蒐集網頁上資訊的程式拉。
欸!不對耶,這麼簡單的東西還需要介紹嗎?

嘿嘿嘿,魔鬼藏在細節裡,不知道大家有沒有注意到幾個重點:

  • 爬蟲存取網站的過程會消耗目標系統資源。
  • 不少網路系統並不默許爬蟲工作。
  • 爬蟲需要考慮到規劃、負載。

是的,這幾點才是網路爬蟲的博大精深之處!
那麼要怎麼樣才能做到呢?那得先對網路有一個基本的了解。
所以接下來的篇章開始,將會陸續介紹網路爬蟲需要知道的知識。

準備好了嗎!?GOGOGO!!

本篇章參考資料

[1] Wiki - 網路爬蟲


上一篇
[Python 爬蟲這樣學,一定是大拇指拉!] DAY03 - 關於 Python (2)
下一篇
[Python 爬蟲這樣學,一定是大拇指拉!] DAY05 - URL / URN / URI (1)
系列文
Python 爬蟲這樣學,一定是大拇指拉!30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言