iT邦幫忙

2019 iT 邦幫忙鐵人賽

DAY 2
0
AI & Data

Puppeteer 簡單快速建立自己的 Nodejs 爬蟲系列 第 2

Day 2 範例程式解釋

沒有前言拉
直接開始拔


在上一篇有一隻範例程式
這邊稍微給大家解釋一下

//這邊是套件的匯入
const puppeteer = require('puppeteer');

//這裡是主程式一個方法的開始(有使用到js的'箭頭函式運算式',想了解的可以去google一下)
//async的用法大家想了解可以google一下這裡不多做解釋
(async () => {
  // 這裡會開啟一個瀏覽器
  const browser = await puppeteer.launch();
  
  // 接著打開一個新的分頁
  const page = await browser.newPage();
  
  //接著指定頁面前往google.com
  await page.goto('https://www.google.com.tw');
  
  //這裡就是截圖並儲存在同個目錄下
  await page.screenshot({path: 'google.png'});

  //最後再把瀏覽器關起來
  await browser.close();
})();

我們可以在browser那裡加入參數用實際會面顯示大家會比較理解一點
更改成下面這行

const browser = await puppeteer.launch({
      headless: false
})

接著執行

node test.js

畫面就非常明瞭了

接著我們來更進階的爬取資料吧

大家可以先了解cheeriojs
之後我們會用到

跟這次鐵人賽結合 那我們就爬鐵人賽的網站吧
當然你們也可以直接找出你們要爬的網站
先簡單的列出我們的操作順序

  1. 找到要爬目標網址,這裡也就是 https://ithelp.ithome.com.tw/ironman 鐵人幫的網址
  2. 找到想要爬的資料位置,最新文章的'標題'和'瀏覽數'
  3. 找到後爬下並儲存在本機端

然後我在偷懶一下
下一篇在詳細教學


上一篇
Day 1 Puppeteer 環境建置
下一篇
Day 3 爬爬爬 鐵人幫
系列文
Puppeteer 簡單快速建立自己的 Nodejs 爬蟲25
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言