iT邦幫忙

鐵人檔案

2018 iT 邦幫忙鐵人賽
回列表
Software Development

爬蟲始終來自於墮性 系列

每個人每天花很多時間在網路上,網路肯定已經是生活中不可或缺的一部分,但你知道嗎?為了交換資訊,我們常常在網路上做著重複的動作,查交通時刻、查股票價格、看表特版、發廢文...而這些重複的動作,一天可能還不只做一次。身為一個懶惰的工程師,為了自己寶貴的時間,也為了保護自己的黃金手腕,無時無刻思考著如何自動化肯定是必然的,而爬蟲同時也是一種諜對諜的遊戲,就讓我們一起用 node.js 來探討爬蟲的知識與技巧。

鐵人鍊成 | 共 34 篇文章 | 412 人訂閱 訂閱系列文 RSS系列文
DAY 1

達標好文 好爬蟲,不玩嗎?

為什麼要玩爬蟲 科技始終來自於惰性,因為想要偷懶,希望能把麻煩事一次解決,所以自動化一直是我很感興趣的題目。也因為自己是名 Web 工程師,所以對於網路的自動化...

2017-12-04 ‧ 由 Howard 分享
DAY 2

達標好文 工欲善其事,必先利其器(上)

玩爬蟲我們必須借重很多工具來觀察和測試,有適合的工具才能夠幫助我們快速釐清線索,有了線索之後,我們也必須先快速測試,解決 key part,再把整給流程釐清之後...

2017-12-05 ‧ 由 Howard 分享
DAY 3

工欲善其事,必先利其器(下)

測試工具 Postman postman 絕對是最好用的測試工具之一,除了可以記錄我們傳送過的內容,也能便利的直接 bulk edit 我們要傳送的參數,可以直...

2017-12-06 ‧ 由 Howard 分享
DAY 3

小插曲 #1 - chrome v62 踩中地雷QQ

剛剛在研究 IT 鐵人賽刪文的 request 的時候,依照 chrome network 的 request 看來,只需要送一個空白的 from 表單到該文章...

2017-12-06 ‧ 由 Howard 分享
DAY 4

達標好文 爬蟲原則和技巧

在實作之前,我們必須了解一些關於玩爬蟲會用到的網頁基本原則和爬蟲技巧: 1. 任何 request 都是無狀態機制 (Stateless) 在大部分的狀況下,每...

2017-12-07 ‧ 由 Howard 分享
DAY 5

達標好文 牛刀小試 - IT 鐵人瀏覽數

好的,經過幾天的基礎建設,想必大家也都躍躍欲試了,我們今天正式進入實作部分。在每次實作,我們都會分為幾個步驟: 1. 起源,定義目標 在最一開始,我們一定要知道...

2017-12-08 ‧ 由 Howard 分享
DAY 5

小插曲 #2 - www-form-urlencoded 的 space

小魚今天在聊天室裡面提到,希望爬一下台彩的銷售地點那一頁,我就花了點時間去爬了一下。直接先講結論,過幾天再補上一篇文章針對這個主題,基本上爬取是成功的,不過要用...

2017-12-08 ‧ 由 Howard 分享
DAY 6

好想工作室與他的參賽者們

定義目標 這次好想工作室大概有二十多位夥伴參加鐵人賽,為此我們也拉了一個 slack channel 來討論和分享彼此的心得,除了互相取暖外,我們也互相激勵。比...

2017-12-09 ‧ 由 Howard 分享
DAY 6

番外篇 #1 - 養成持續分享的習慣

分享的重要性 這陣子因為參加鐵人賽的關係,所以工作室裡面的學員大部分也被我推坑下來,而看到一些學員會抱持著擔憂、懼怕的心情,擔心自己所寫的東西不夠好,怕講的內容...

2017-12-09 ‧ 由 Howard 分享
DAY 7

達標好文 IT 鐵人排程發文

定義目標 參加 IT 鐵人賽目前已經進入第七天了,發現其實產文章不是最難的,反而每天都必須撥時間在電腦前才是最困難的,我都沒辦法不帶電腦出遠門了QQ。既然如此,...

2017-12-10 ‧ 由 Howard 分享