在前一篇文章中,我們了解到這門課程的目的,那在第二天我們需要了解的是下面這些名詞的解釋。
這些會在下面依序的做介紹。
網路爬蟲,我相信各位不會陌生,那依照維基百科所提供的解釋,指的是:在網際網路上透過一定的規則進行爬取的網頁中的內容,這樣的行為就可以叫做「網路爬蟲」,通常這類的程式或是工具會依照下面的行為執行。
與網路爬蟲的概念類似,蜘蛛也有另外一個目的,與網路爬蟲不一樣,蜘蛛比較著重在每個網頁上的meta data與網頁內容中的關鍵字,因此蜘蛛常用於網路搜尋引擎建置資料時使用。
通常蜘蛛會對於網站做深度優先等爬取內容。這就是與爬蟲不一樣的地方
這是建置在網路爬蟲之上的應用,當有網路爬蟲之後,自然會有延伸的應用出來,例如我們想要監控某個網頁中的消息,當消息達成什麼狀態或是改變的時候,需要做即時的通知,這時候就會與其他通知的服務串接起來,例如簡訊相關API服務,或是寄信API服務抑或是即時訊息的推播,如聊天機器人API等,這整個合在一起我們就可以稱作「網路機器人」。
在本系列的課程中,不著重在網路蜘蛛的開發與設計技巧,而是著重在「網路爬蟲」設計與開發,還有整合相關服務變成「網路機器人」的技巧上面,一方面來說比貼近個人生活之外,也是比較實用的部份,也期許PHP開發者的讀者能夠在30堂課程之後,有能力可以自行開發自己想要的網路爬蟲並整合成網路機器人。
在下一篇文章,我們會先了解要開發網路爬蟲前,所需要用到的環境。