iT邦幫忙

鐵人檔案

第 11 屆 iThome 鐵人賽
回列表
Modern Web

寫給PHP開發者的30堂網路爬蟲開發 系列

想到「網路爬蟲開發」會想到什麼?我們可能會想到「Python」。
但是有想過,PHP也可以開發出網路爬蟲與機器人嘛?那這有什麼樣的好處?當我們已經有既有的網路服務用PHP做開發的時候,需要與爬蟲等相關技術整合的時候,會顯的較為方便,不會因為改用其他的程式語言開發還要增加新的學習曲線。

本30堂課程,主要主旨就是讓PHP開發者也可以善用適合的工具開發出自己想要的網路爬蟲,機器人與蜘蛛。

簡要的內容如下:

1. 一般名詞解釋,網路爬蟲,機器人與蜘蛛
2. 介紹會使用到的工具
3, 建置爬蟲的環境
4. case studies 爬蟲案例研究 (預計10個案例)

鐵人鍊成 | 共 30 篇文章 | 55 人訂閱 訂閱系列文 RSS系列文
DAY 11

Day 11:案例研究 2-1 分析選課系統想法

前言 從前幾天的2個例子來看,我們可以知道訊息發怖網站的分析與擷取,學到分析網站的行為,請求網址的路徑,怎麼拿到AJAX刷新後的新訊息等。 這些都算是最基本的爬...

2019-09-26 ‧ 由 peter279k 分享
DAY 12

Day 12:案例研究 2-1 解析與介紹選課系統

前言 從前天可以知道,我們的這次的案例目標了。接下來就要開始著手計畫了。 本次文章,會著重在選課系統上面的資料並識別出我們想要的資料。 介紹選課系統 首先,從這...

2019-09-27 ‧ 由 peter279k 分享
DAY 13

Day 13:案例研究 2-1 解析年度課程綱要網站

前言 從昨天的文章可以知道,我們先從分析課程綱要網站開始。 分析網站 首先,先進入這個網站,會得到下面圖示。 從上圖中可以得知,這看起來是一個表單送出的模式,...

2019-09-28 ‧ 由 peter279k 分享
DAY 14

Day 14:案例研究 2-1 分析指定年度課程綱要網站

前言 從昨天可以知道,有找到每個下拉選單所對應到的指定年度綱要的課程網站。那現在我們要做的事情是將其中一個網站做一個解析。找到擷取要的內容的方法。 解析網站 假...

2019-09-29 ‧ 由 peter279k 分享
DAY 15

Day 15:案例研究 2-1 實做指定年度課程綱要網站爬蟲

前言 從昨天可以得知,可以得知每個年度所對應到的課程綱要網站連結,那我們拿108年度課程綱要連結為例子,來做實做爬蟲的目標網站。 實做 首先,我們拿的是這個網站...

2019-09-30 ‧ 由 peter279k 分享
DAY 16

Day 16:案例研究 2-1 分析課程查詢網站

前言 如標題,我們在前幾天已經完成了課程綱要的網站分析,擷取與實做爬蟲等項目,接下來要到目前整個課程網站中最重頭戲的部份了。 課程查詢系統是學校網站最重要的一環...

2019-10-01 ‧ 由 peter279k 分享
DAY 17

Day 17:案例研究 2-1 實做課程查詢網站爬蟲

前言 昨天我們可以知道,課程查詢網站分析,接著今日就要將昨天的分析拿還實做成今日的爬蟲。 實做 實做爬蟲前,跟前幾次一樣,要先啟動先前建置好的Docker co...

2019-10-02 ‧ 由 peter279k 分享
DAY 18

Day 18:案例研究 2-1 實做課程查詢網站爬蟲-part2

前言 從昨天我們可以知道,第一階段part1是取得需要做POST方法的相關__VIEWSTATE與__EVENTVALIDATION等相關值。 接著在本日的第二...

2019-10-03 ‧ 由 peter279k 分享
DAY 19

Day 19:案例研究 2-1 實做課程查詢網站爬蟲-part3

前言 從昨天我們可以知道,該如何實做課程查詢爬蟲,並成功傳回第一頁課程清單,那接下來,如果是分頁的課程查詢結果清單呢? 在此篇文章中,會教該如何實做分頁課程查詢...

2019-10-04 ‧ 由 peter279k 分享
DAY 20

Day 20:案例研究 2-1 擷取課程查詢網站內容

前言 從前幾天的爬蟲實做,我們總算將課程查詢網站爬蟲相關實做的部份告一個段落了,那在今日,我們要做的事情是,將前幾天下來所拿到的課程清單做一個擷取的動作,拿到我...

2019-10-05 ‧ 由 peter279k 分享