每個人每天花很多時間在網路上,網路肯定已經是生活中不可或缺的一部分,但你知道嗎?為了交換資訊,我們常常在網路上做著重複的動作,查交通時刻、查股票價格、看表特版、發廢文...而這些重複的動作,一天可能還不只做一次。身為一個懶惰的工程師,為了自己寶貴的時間,也為了保護自己的黃金手腕,無時無刻思考著如何自動化肯定是必然的,而爬蟲同時也是一種諜對諜的遊戲,就讓我們一起用 node.js 來探討爬蟲的知識與技巧。
為什麼要玩爬蟲 科技始終來自於惰性,因為想要偷懶,希望能把麻煩事一次解決,所以自動化一直是我很感興趣的題目。也因為自己是名 Web 工程師,所以對於網路的自動化...
玩爬蟲我們必須借重很多工具來觀察和測試,有適合的工具才能夠幫助我們快速釐清線索,有了線索之後,我們也必須先快速測試,解決 key part,再把整給流程釐清之後...
測試工具 Postman postman 絕對是最好用的測試工具之一,除了可以記錄我們傳送過的內容,也能便利的直接 bulk edit 我們要傳送的參數,可以直...
剛剛在研究 IT 鐵人賽刪文的 request 的時候,依照 chrome network 的 request 看來,只需要送一個空白的 from 表單到該文章...
在實作之前,我們必須了解一些關於玩爬蟲會用到的網頁基本原則和爬蟲技巧: 1. 任何 request 都是無狀態機制 (Stateless) 在大部分的狀況下,每...
好的,經過幾天的基礎建設,想必大家也都躍躍欲試了,我們今天正式進入實作部分。在每次實作,我們都會分為幾個步驟: 1. 起源,定義目標 在最一開始,我們一定要知道...
小魚今天在聊天室裡面提到,希望爬一下台彩的銷售地點那一頁,我就花了點時間去爬了一下。直接先講結論,過幾天再補上一篇文章針對這個主題,基本上爬取是成功的,不過要用...
定義目標 這次好想工作室大概有二十多位夥伴參加鐵人賽,為此我們也拉了一個 slack channel 來討論和分享彼此的心得,除了互相取暖外,我們也互相激勵。比...
分享的重要性 這陣子因為參加鐵人賽的關係,所以工作室裡面的學員大部分也被我推坑下來,而看到一些學員會抱持著擔憂、懼怕的心情,擔心自己所寫的東西不夠好,怕講的內容...