iT邦幫忙

第 11 屆 iT 邦幫忙鐵人賽

DAY 26
0
Modern Web

寫給PHP開發者的30堂網路爬蟲開發系列 第 26

Day 26:案例研究整合構想與介紹

前言

經歷了25天的網站爬蟲實做開發與擷取網頁內容開發實做之後,相信各位讀者對於使用PHP開發網站爬蟲與擷取網頁內容程式實做有一定的基礎與了解了。

本日,我會帶領讀者了解何謂案例整合章節,以利日後四天中完成案例整合研究與內容。

案例整合介紹

什麼是案例整合?意思是將先前的三個網站爬蟲個別做延伸的應用。三個網站爬蟲與網頁內容擷取程式分別是:

  • 學校新聞網站內容擷取與學校RSS消息擷取
  • 學校選課系統之課程查詢網站
  • 證券網站之收盤價檔案下載

有什麼樣的案例與其他服務可以整合?不妨先假設下面的一個情況:

我們已經有學校新聞網站爬蟲了,執行完成程式之後,可以拿到指定的網站分類中最新的消息內容與相關的消息發怖連結,那我們要拿到每日最新的指定分類中最新的消息呢?

總不能每天某個時段自己執行這個爬蟲吧?我們換個角度想,可以考慮的是:「排程」。在作業系統上,當我們想要讓某個工作可以幫我們在某個指定時段工作時,我們就可以設定排程,讓排程可以自動在我們指定的時間執行網站爬蟲與擷取網頁內容的工作。

配合排程工作,我們也可以擴展這個功能,比如說,開放訂閱服務,讓一些讀取最新消息讀者可以訂閱這個電子報訊息,在某個時段,可能是每日,每個禮拜或是每季。寄送電子報訊息給訂閱學校最新消息給讀者。

至於學校選課系統之課程查詢網站可以轉變成「API」服務,讓其他想要透過選課資料開發相關應用的開發者可以直接串接我們提供的API即可,他們不需要煩惱該如何拿到選課系統上的選課課程資料。
可以直接串接API並直接實做第三方的選課系統資料加值服務。

證券網站之收盤價檔案,與學校新聞網站同樣,因為網站後端的緣故,只會顯示出最新收盤價日期的前五天收盤價檔案而已,並不能拿到更久之前的歷史收盤價資料。

為了解決上述的問題,可以結合排程,將每次的收盤價都記下來,這樣就會有每日的收盤價資料了,當然,也可以開放訂閱服務,讓一般使用者可以透過電子報訂閱,取得每日收盤價的檔案。

另一個服務是API讓使用者可以存取此服務過去所收集的歷史收盤價檔案。

結語

上述章節,就是後續會實做與介紹的案例整合的內容,因為剩下天數不多了,能介紹的篇幅會變小,因此筆者會著重在下列幾個案例整合上面:

  • 學校消息網站訂閱服務設計與實做
  • 學校消息網站API服務設計與實做
  • 課程查詢網站案例整合範圍偏大,目前暫時不考慮在有限的章節中探討此案例的整合實例(或許日後有機會)
  • 證券網站之收盤價檔案API服務設計與實做

上一篇
Day 25:案例研究 3-1 凱基證券網站內容之收盤價檔案下載擷取
下一篇
Day 27:案例研究整合之用到服務介紹
系列文
寫給PHP開發者的30堂網路爬蟲開發30

尚未有邦友留言

立即登入留言