iT邦幫忙

鐵人檔案

2019 iT 邦幫忙鐵人賽
回列表
AI & Data

Puppeteer 簡單快速建立自己的 Nodejs 爬蟲 系列

會簡單入門的方式透或GOOGLE好用的Puppeteer 套件
輕鬆地建立起自己的爬蟲
過程中也會邊學習typescript
會以js和ts方式同時呈現code
並在最後簡單地用vuejs建立自己的爬完的小網站
或者是建立自用小型伺服器http方式取得爬完的資料

參賽天數 25 天 | 共 25 篇文章 | 27 人訂閱 訂閱系列文 RSS系列文
DAY 1

Day 1 Puppeteer 環境建置

第一天先偷懶一下應該沒什麼前言可以說直接開始吧 先補充說明一下為什麼要使用Puppeteer 簡單介紹我覺得的Puppeteer優點 可以解決需要javas...

2018-10-01 ‧ 由 henry.w 分享
DAY 2

Day 2 範例程式解釋

沒有前言拉直接開始拔 在上一篇有一隻範例程式這邊稍微給大家解釋一下 //這邊是套件的匯入 const puppeteer = require('puppete...

2018-10-02 ‧ 由 henry.w 分享
DAY 3

Day 3 爬爬爬 鐵人幫

再上一篇有列出我們的操作順序 找到要爬目標網址,這裡也就是 https://ithelp.ithome.com.tw/ironman 鐵人幫的網址 找到想要爬...

2018-10-03 ‧ 由 henry.w 分享
DAY 4

Day 4 擷取 分類 儲存

再上一篇我們把資料擷取下來了接下來我們把他分類與儲存吧 我們可以看到我們擷取下來的資料長這樣這樣這資料完全沒有規律沒辦法分類 Go day 4 (variabl...

2018-10-04 ‧ 由 henry.w 分享
DAY 5

Day 5 擷取所有文章資料

再上一篇我們把第一頁的資料爬了下來再這篇我們就把目前所有文章都抓下來吧 今天目標把所有資料做成有用的數據 我們先打開我們上次做好的程式碼今天的問題點在於如何有規...

2018-10-05 ‧ 由 henry.w 分享
DAY 6

Day 6 鐵人賽文章資料分析(排名與人數)

再前言我先來回答 marlin12 的5點問題 怎樣處理lazy load 怎樣用puppeteer來做SSR 如何應對網站反爬蟲防禦 如何高效地爬大量數據...

2018-10-06 ‧ 由 henry.w 分享
DAY 7

Day 7 Puppeteer API 架構介紹

API DOC 今天大概介紹一下Puppeteer的架構 Puppeteer 是個Node的套件,提供了一個高度控制Chromium或Chrome的DevTo...

2018-10-07 ‧ 由 henry.w 分享
DAY 8

Day 8 Puppeteer API 介紹 - class: Puppeteer

Puppeteer 模組提供了一個方法去實現Chromium。文件上有提供一個範例 const puppeteer = require('puppeteer')...

2018-10-08 ‧ 由 henry.w 分享
DAY 9

Day 9 Puppeteer API 介紹 - class: BrowserFetcher

上一片就有提到BrowserFetcher可以下載和管理不同版本的Chromium。像是DOC上的範例 ``` //建立一個browserFetcher實例 c...

2018-10-09 ‧ 由 henry.w 分享
DAY 10

Day 10 Puppeteer API 介紹 - class: Browser, BrowserContext

class: Browser 繼承: EventEmitter代表他會監聽事件 Browser是Puppeteer為了連接Chromium所創造的實例lau...

2018-10-10 ‧ 由 henry.w 分享