Day 2 範例程式解釋

2019 iT 邦幫忙鐵人賽

DAY 2

AI & Data

Puppeteer 簡單快速建立自己的 Nodejs 爬蟲系列第 2 篇

2019鐵人賽

henry.w

2018-10-02 22:04:24

6073 瀏覽

分享至

沒有前言拉
直接開始拔

在上一篇有一隻範例程式
這邊稍微給大家解釋一下

//這邊是套件的匯入
const puppeteer = require('puppeteer');

//這裡是主程式一個方法的開始（有使用到js的'箭頭函式運算式'，想了解的可以去google一下）
//async的用法大家想了解可以google一下這裡不多做解釋
(async () => {
  // 這裡會開啟一個瀏覽器
  const browser = await puppeteer.launch();
  
  // 接著打開一個新的分頁
  const page = await browser.newPage();
  
  //接著指定頁面前往google.com
  await page.goto('https://www.google.com.tw');
  
  //這裡就是截圖並儲存在同個目錄下
  await page.screenshot({path: 'google.png'});

  //最後再把瀏覽器關起來
  await browser.close();
})();

我們可以在browser那裡加入參數用實際會面顯示大家會比較理解一點
更改成下面這行

const browser = await puppeteer.launch({
      headless: false
})

接著執行

node test.js

畫面就非常明瞭了

接著我們來更進階的爬取資料吧

大家可以先了解cheeriojs
之後我們會用到

跟這次鐵人賽結合那我們就爬鐵人賽的網站吧
當然你們也可以直接找出你們要爬的網站
先簡單的列出我們的操作順序

找到要爬目標網址，這裡也就是 https://ithelp.ithome.com.tw/ironman 鐵人幫的網址
找到想要爬的資料位置，最新文章的'標題'和'瀏覽數'
找到後爬下並儲存在本機端

然後我在偷懶一下
下一篇在詳細教學

Day 1 Puppeteer 環境建置

Day 3 爬爬爬鐵人幫

系列文

Puppeteer 簡單快速建立自己的 Nodejs 爬蟲共 25 篇

RSS系列文訂閱系列文

28 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19860 篇

完賽人數

528 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

Puppeteer 簡單快速建立自己的 Nodejs 爬蟲系列 第 2 篇

Day 2 範例程式解釋

尚未有邦友留言

標記使用者

Puppeteer 簡單快速建立自己的 Nodejs 爬蟲系列第 2 篇