iT邦幫忙

第 11 屆 iT 邦幫忙鐵人賽

DAY 2
0
Modern Web

寫給PHP開發者的30堂網路爬蟲開發系列 第 2

Day 2:網路爬蟲,蜘蛛以及機器人之名詞解釋

介紹

在前一篇文章中,我們了解到這門課程的目的,那在第二天我們需要了解的是下面這些名詞的解釋。

  • 網路爬蟲
  • 網路機器人
  • 網路蜘蛛

這些會在下面依序的做介紹。

網路爬蟲

網路爬蟲,我相信各位不會陌生,那依照維基百科所提供的解釋,指的是:在網際網路上透過一定的規則進行爬取的網頁中的內容,這樣的行為就可以叫做「網路爬蟲」,通常這類的程式或是工具會依照下面的行為執行。

  • 在指定的頁面下面爬取指定網頁中的資料與內容
  • 檢測指定的頁面是否有改變,當有改變的時候再進行指定的動作並執行
  • 研擬如何在網路伺服器上避免過度存取網頁上的內容導致被發現或是過濾掉
  • 為了加快爬蟲的速度,設計同步抓取網頁上的內容等並行架構

網路蜘蛛

與網路爬蟲的概念類似,蜘蛛也有另外一個目的,與網路爬蟲不一樣,蜘蛛比較著重在每個網頁上的meta data與網頁內容中的關鍵字,因此蜘蛛常用於網路搜尋引擎建置資料時使用。

通常蜘蛛會對於網站做深度優先等爬取內容。這就是與爬蟲不一樣的地方

網路機器人

這是建置在網路爬蟲之上的應用,當有網路爬蟲之後,自然會有延伸的應用出來,例如我們想要監控某個網頁中的消息,當消息達成什麼狀態或是改變的時候,需要做即時的通知,這時候就會與其他通知的服務串接起來,例如簡訊相關API服務,或是寄信API服務抑或是即時訊息的推播,如聊天機器人API等,這整個合在一起我們就可以稱作「網路機器人」。

在本系列的課程中,不著重在網路蜘蛛的開發與設計技巧,而是著重在「網路爬蟲」設計與開發,還有整合相關服務變成「網路機器人」的技巧上面,一方面來說比貼近個人生活之外,也是比較實用的部份,也期許PHP開發者的讀者能夠在30堂課程之後,有能力可以自行開發自己想要的網路爬蟲並整合成網路機器人。

在下一篇文章,我們會先了解要開發網路爬蟲前,所需要用到的環境。

參考資料


上一篇
Day 1:導論
下一篇
Day 3:建置爬蟲所需要的開發環境
系列文
寫給PHP開發者的30堂網路爬蟲開發30

尚未有邦友留言

立即登入留言