iT邦幫忙

鐵人檔案

2019 iT 邦幫忙鐵人賽
回列表
AI & Data

Puppeteer 簡單快速建立自己的 Nodejs 爬蟲 系列

會簡單入門的方式透或GOOGLE好用的Puppeteer 套件
輕鬆地建立起自己的爬蟲
過程中也會邊學習typescript
會以js和ts方式同時呈現code
並在最後簡單地用vuejs建立自己的爬完的小網站
或者是建立自用小型伺服器http方式取得爬完的資料

參賽天數 25 天 | 共 25 篇文章 | 27 人訂閱 訂閱系列文 RSS系列文
DAY 21

Day 21 Puppeteer API 介紹 - class: SecurityDetails, Target, CDPSession, TimeoutError

class: SecurityDetails此類別代表當再安全連線中收到response時的安全細節 securityDetails.issuer()回...

2018-10-21 ‧ 由 henry.w 分享
DAY 22

Day 22 Puppeteer處理lazy load, SSR, 反爬蟲防禦, 高效地爬大量數據

在這邊回答marlin12之前提出的5個問題,先回答4個 lazy loadlazy load就是指惰性載入,只要頁面不到那部份,那部份的頁面就不會載入。...

2018-10-22 ‧ 由 henry.w 分享
DAY 23

Day 23 爬蟲範例-中央社(練習使用typescript)

中央社是我平實再看的新聞網站裏面的新聞相較其他的,我覺得比較中立。讓我們用之前的知識,直接開始吧。 中央社 先開啟一個專案吧 mkdir news &amp...

2018-10-23 ‧ 由 henry.w 分享
DAY 24

Day 24 爬蟲範例-中央社-每個子項(類lazy load)

今天就繼續每個分類的子項目吧 我們先檢查子項目有甚麼? 乍看之下只是普通標題但是在更下面有"看更多內容"點下去後就可以擷取更多標題在這邊就...

2018-10-24 ‧ 由 henry.w 分享
DAY 25

Day 25 爬蟲範例-中央社-繼續

那我們就接著繼續把爬蟲完成 那我們找到每跟分類的頁面,跟我們已經可以完整的把資料拿下來了就只需要做一些簡單的處理 那我們先再前面新增的類別做修改 class...

2018-10-25 ‧ 由 henry.w 分享