iT邦幫忙

鐵人檔案

第 11 屆 iThome 鐵人賽
回列表
Modern Web

寫給PHP開發者的30堂網路爬蟲開發 系列

想到「網路爬蟲開發」會想到什麼?我們可能會想到「Python」。
但是有想過,PHP也可以開發出網路爬蟲與機器人嘛?那這有什麼樣的好處?當我們已經有既有的網路服務用PHP做開發的時候,需要與爬蟲等相關技術整合的時候,會顯的較為方便,不會因為改用其他的程式語言開發還要增加新的學習曲線。

本30堂課程,主要主旨就是讓PHP開發者也可以善用適合的工具開發出自己想要的網路爬蟲,機器人與蜘蛛。

簡要的內容如下:

1. 一般名詞解釋,網路爬蟲,機器人與蜘蛛
2. 介紹會使用到的工具
3, 建置爬蟲的環境
4. case studies 爬蟲案例研究 (預計10個案例)

鐵人鍊成 | 共 30 篇文章 | 56 人訂閱 訂閱系列文 RSS系列文
DAY 1

Day 1:導論

前言 為什麼需要有這30堂課程?我想我要在第一篇文章好好的說清楚。 我們先假設一個情況,我們已經有一個網頁應用程式或是網路服務了,並使用PHP所開發的,這時候我...

2019-09-16 ‧ 由 peter279k 分享
DAY 2

Day 2:網路爬蟲,蜘蛛以及機器人之名詞解釋

介紹 在前一篇文章中,我們了解到這門課程的目的,那在第二天我們需要了解的是下面這些名詞的解釋。 網路爬蟲 網路機器人 網路蜘蛛 這些會在下面依序的做介紹。...

2019-09-17 ‧ 由 peter279k 分享
DAY 3

Day 3:建置爬蟲所需要的開發環境

簡介 在經過前面兩天的導論與名詞解釋之後,第三天我要帶給讀者的是有關於環境建置的部份,俗話說地好,「工欲善其事,必先利其器」。 在開始後面爬蟲專案的開發與案例研...

2019-09-18 ‧ 由 peter279k 分享
DAY 4

Day 4:案例研究 1-1 擷取最新消息為例

前言 經過三天的基本名詞解釋以及建置爬蟲開發環境,相信各位讀者對於這些已經有初步的了解了。 接下來在第一個案例研究之前,我想先講一下有關於爬蟲「設計」的部份。首...

2019-09-19 ‧ 由 peter279k 分享
DAY 5

Day 5:案例研究 1-1 開爬吧!擷取最新RSS消息實做

前言 我們從Day4可以知道,有兩種方法可以達到我們需要的學校網站上的最新消息。 接下來本章節,就是實做第一個作法的時間了。 實做 在前幾天,有一篇文章講爬蟲建...

2019-09-20 ‧ 由 peter279k 分享
DAY 6

Day 6:案例研究 1-1 解析吧!解析最新RSS消息

前言 在前一天我們已經介紹把RSS訊息擷取下來,接著就是要解析裡面的內容。 解析步驟 首先,我們先打開終端機,並進入Docker的環境。 docker run...

2019-09-21 ‧ 由 peter279k 分享
DAY 7

Day 7:案例研究 1-1 解析吧!解析更多的RSS內容

前言 在前一天中,我們知道了該如何拿到「訊息標題」,但是這不算夠的,我認為要拿到下列才可以把訊息重要資訊擷取起來。 「內容」 「訊息標題」 「訊息發怖時間」...

2019-09-22 ‧ 由 peter279k 分享
DAY 8

Day 8:案例研究 1-2 擷取所有消息為例之分析方法

前言 從前幾天可以知道從RSS拿出我們要的訊息,那接下來就是要拿歷史訊息的方法了。 分析 首先,可以發現到當Google Chrome瀏覽器載入最新消息的頁面時...

2019-09-23 ‧ 由 peter279k 分享
DAY 9

Day 9:擷取!案例研究 1-2 擷取所有消息為例

前言 前一天提到,每個訊息分類可能載入的方式,因此在本日文章則是要做以下的事情: 以「最新消息」為例,把所有最新消息都擷取下來 搭配不同的「Form Data...

2019-09-24 ‧ 由 peter279k 分享
DAY 10

Day 10:案例研究 1-2 解析所有消息為例

前言 在前一天,我們提到該如何拿到利用AJAX請求的訊息。那在這一天,我們要了解的是,該如何將擷取到的訊息做一個解析。 解析 假設拿到的分頁資料是長下面的樣子:...

2019-09-25 ‧ 由 peter279k 分享