iT邦幫忙

鐵人檔案

2019 iT 邦幫忙鐵人賽
回列表
AI & Data

Puppeteer 簡單快速建立自己的 Nodejs 爬蟲 系列

參賽天數 25 天 共 25 篇文章 | 10 人訂閱 訂閱系列文
DAY 1

Day 1 Puppeteer 環境建置

第一天先偷懶一下 應該沒什麼前言可以說 直接開始吧 先補充說明一下為什麼要使用Puppeteer 簡單介紹我覺得的Puppeteer優點 使用Chromiu...

2018-10-01 ‧ 由 henry.w 分享
DAY 2

Day 2 範例程式解釋

沒有前言拉 直接開始拔 在上一篇有一隻範例程式 這邊稍微給大家解釋一下 //這邊是套件的匯入 const puppeteer = require('puppe...

2018-10-02 ‧ 由 henry.w 分享
DAY 3

Day 3 爬爬爬 鐵人幫

再上一篇有列出我們的操作順序 找到要爬目標網址,這裡也就是 https://ithelp.ithome.com.tw/ironman 鐵人幫的網址 找到想要爬...

2018-10-03 ‧ 由 henry.w 分享
DAY 4

Day 4 擷取 分類 儲存

再上一篇我們把資料擷取下來了 接下來我們把他分類與儲存吧 我們可以看到我們擷取下來的資料長這樣 這樣這資料完全沒有規律沒辦法分類 Go day 4 (varia...

2018-10-04 ‧ 由 henry.w 分享
DAY 5

Day 5 擷取所有文章資料

再上一篇我們把第一頁的資料爬了下來 再這篇我們就把目前所有文章都抓下來吧 今天目標把所有資料做成有用的數據 我們先打開我們上次做好的程式碼 今天的問題點在於如何...

2018-10-05 ‧ 由 henry.w 分享
DAY 6

Day 6 鐵人賽文章資料分析(排名與人數)

再前言我先來回答 marlin12 的5點問題 怎樣處理lazy load 怎樣用puppeteer來做SSR 如何應對網站反爬蟲防禦 如何高效地爬大量數據...

2018-10-06 ‧ 由 henry.w 分享
DAY 7

Day 7 Puppeteer API 架構介紹

API DOC 今天大概介紹一下Puppeteer的架構 Puppeteer 是個Node的套件,提供了一個高度控制Chromium或Chrome的DevTo...

2018-10-07 ‧ 由 henry.w 分享
DAY 8

Day 8 Puppeteer API 介紹 - class: Puppeteer

Puppeteer 模組提供了一個方法去實現Chromium。 文件上有提供一個範例 const puppeteer = require('puppeteer'...

2018-10-08 ‧ 由 henry.w 分享
DAY 9

Day 9 Puppeteer API 介紹 - class: BrowserFetcher

上一片就有提到 BrowserFetcher可以下載和管理不同版本的Chromium。 像是DOC上的範例 ``` //建立一個browserFetcher實例...

2018-10-09 ‧ 由 henry.w 分享
DAY 10

Day 10 Puppeteer API 介紹 - class: Browser, BrowserContext

class: Browser 繼承: EventEmitter 代表他會監聽事件 Browser是Puppeteer為了連接Chromium所創造的實例 l...

2018-10-10 ‧ 由 henry.w 分享