[Java]手把手帶你實作PTT爬蟲(1)-文章列表

java 爬蟲 ptt 教學

koro_michael 2021-03-05 16:44:47 ‧ 11273 瀏覽

分享至

前言

好幾年前寫過一篇 Java 的爬蟲文章，好像是我部落格內最受歡迎的一篇...

時過境遷，Eclipse 退流行了、Java 出到 15 了，加上一些因素

打算把爬蟲文章重新寫過一遍，這次會當是做一個 Site project，盡量把內容充實一點

預計這系列文章應該會寫個五六篇以上，後面也會教到資料庫及圖形化介面

必備知識

常用 Http request Ex. get post
Cookie 相關知識
HTML相關知識
CSS 選擇器相關知識
Java OOP 相關知識

使用環境

Intelli J
Chrome

創建專案

這次我們使用的 IDE 是 IntelliJ，點下 New Project

選擇 Maven 專案，SDK 我是安裝最新的 15 版

專案要放哪邊就依照個人喜好，都完成後就會顯示初始畫面

新增 OkHttp

既然是爬蟲，就需要可以發送 Http request 的套件

上一篇文章使用的是 Apache 的 HttpClient

這次嘗試使用新的 OkHttp，這兩種套件效能其實差不多

一樣看個人喜好使用

將以下內容加入到 pom.xml 中

<dependencies>
    <dependency>
        <groupId>com.squareup.okhttp3</groupId>
        <artifactId>okhttp</artifactId>
        <version>3.3.1</version>
    </dependency>
</dependencies>

點開右邊的 Maven 選單，按下左上角的 Reload All Maven Projects 按鈕

安裝會需要一點時間，跑完後就可以看到套件安裝完畢

正篇

先來看看基本的架構

package ptt.crawler;

import org.jsoup.select.Elements;
import ptt.crawler.model.*;
import ptt.crawler.config.Config;

import okhttp3.*;
import org.jsoup.*;
import org.jsoup.nodes.*;

import java.io.IOException;
import java.text.ParseException;
import java.text.SimpleDateFormat;
import java.util.*;

public class Reader {
    private OkHttpClient okHttpClient;
    private final Map<String, List<Cookie>> cookieStore; // 保存 Cookie
    private final CookieJar cookieJar;

    public Reader() throws IOException {
        /* 初始化 */
        cookieStore = new HashMap<>();
        cookieJar = new CookieJar() {
            /* 保存每次伺服器端回傳的 Cookie */
            @Override
            public void saveFromResponse(HttpUrl httpUrl, List<Cookie> list) {
                List<Cookie> cookies = cookieStore.getOrDefault(
                    httpUrl.host(), 
                    new ArrayList<>()
                );
                cookies.addAll(list);
                cookieStore.put(httpUrl.host(), cookies);
            }
            
            /* 每次發送帶上儲存的 Cookie */
            @Override
            public List<Cookie> loadForRequest(HttpUrl httpUrl) {
                return cookieStore.getOrDefault(
                    httpUrl.host(), 
                    new ArrayList<>()
                );
            }
        };
        okHttpClient = new OkHttpClient.Builder().cookieJar(cookieJar).build();

        /* 獲得網站的初始 Cookie */
        Request request = new Request.Builder().get().url(Config.PTT_URL).build();
        okHttpClient.newCall(request).execute();
    }
}

目前整個 Reader 只會用到以下這三個共用實體

okHttpClient 為 Reader 共用的請求實體
cookieStore 為 Cookie 保存使用，每一次發送請求都會帶著
cookieJar 為 OkHttp 管理 Cookie 用的 Class

建構子內除了實體化部分還另外做了一件事情「獲得網站的初始 Cookie」

這麼做的用意在於，除了盡量模擬正常使用者的使用環境外

也顧慮到網站可能會把一些驗證資訊放到 Cookie 內

如果沒帶到這些內容可能造成驗證失敗

PS: 這一步並非必要，只是一種習慣而已

第一隻 Method

接下來來分析一下如果一個從未訪問過 PTT 八卦板的瀏覽器會遇到什麼事情

直接開啟 Chrome 的無痕模式訪問八卦板網址

PS: 養成使用無痕的習慣，用以確認爬蟲真實遇到的情況

看到的第一個頁面是一個成年檢查畫面，有兩個按鈕讓我們選擇

遇到這種狀況不需要慌張，按下 F12 開啟開發者工具頁面

PS: 開發者工具很有用，Web 開發者或是網站爬蟲開發者都要熟悉操作

點下左上方的 icon，反白後再去點選同意按鈕

可以看到右方幫你鎖定到了同意按鈕在 HTML 中的位置

來看看這顆按鈕按下去會發生什麼事情

首先可以看到按鈕是包在一個 Form 表單裡面

這個表單的方式是 Post，目標 URL 是要傳送到 /ask/over18

再來可以看到有一個隱藏的欄位，name = form，value 等於八卦板的網址

這邊可以大膽判斷對方的邏輯是透過這個欄位來決定使用者點下同意按鈕後該跳轉去哪

PS: 這樣的方法如果沒有做好安全檢查的話，對於資安上可能是一個小漏洞

同意按鈕本身就是一個 submit，name = yes、value = yes

一頓分析下來可以得到結果了，點下同意按鈕後的行為如下

發送 post 表單到網址 https://www.ptt.cc/ask/over18
一併帶過去的資料有兩個欄位from 及欄位yes

那麼第一隻 Method 就來寫這部分吧，直接上程式碼

/* 進行年齡確認 */
private void runAdultCheck(String url) throws IOException {
    FormBody formBody = new FormBody.Builder()
        .add("from", url)
        .add("yes", "yes")
        .build();

    Request request = new Request.Builder()
        .url(Config.PTT_URL + "/ask/over18")
        .post(formBody)
        .build();

    okHttpClient.newCall(request).execute();
}

這個方法需要傳入一個 url 字串，用來代表 form 欄位的值

formBody 的部分利用套件提供的方法直接幫我們處理完畢

request 也是一樣，利用套件幫我們處理好，post 方法代表我們要用 post 發送，很直覺

最後呼叫 newCall 創建一個請求，呼叫 execute 發送這一個請求

PS: execute 方法會回傳一個 Response 物件，但我們不需要針對回傳內容做處理

至於好奇心比較重的讀者們可能會有疑惑說：「為什麼這樣就有效果了呢？」

答案其實很單純，因為 PTT 確認使用者有沒有點擊同意按鈕的方法呢

就是檢查 Cookie 中有沒有一個叫做 over18 的內容

這張圖片是一開始訪問 PTT 時的 Cookie 列表

按下同意按鈕之後，Cookie 列表就多了幾條，其中一條就是 over18

所以只要帶上有 over18 的 Cookie， PTT 就不會跳轉到成年檢查頁面

第二隻 Method

通過成年檢查後後就可以看到一個正常的列表畫面

接下來確認文章列表是怎麼呈現的，一樣利用開發者工具鎖定到文章列表上

文章列表的每一條都是一個 div，class 都是設定 r-ent

再來看看 div 的內部長怎樣

標題 div，class 為 title，裡面還有一個 a
作者 div，class 為 author
日期 div，class 為 date

知道該找的資料在何方，那麼就可以來寫第二隻 Method

但在此之前需要來安裝另一個好用的套件 Jsoup

這個套件可以解析 HTML 結構，之後利用 CSS 選擇器的方式來提取需要的資料

比自己用 Split 去切字串來的方便很多，大力推薦

安裝方式就跟安裝 OkHttp 一樣，在 pom.xml 中加入以下程式碼

點開右邊的 Maven 選單，按下左上角的 Reload All Maven Projects 按鈕

<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.11.3</version>
</dependency>

安裝好後就來看看第二隻 Method 的內容

/* 解析看板文章列表 */
private List<Map<String, String>> parseArticle(String body) {
    List<Map<String, String>> result = new ArrayList<>();
    Document doc = Jsoup.parse(body);
    Elements articleList = doc.select(".r-ent");

    for (Element element: articleList) {
        String url = element.select(".title a").attr("href");
        String title = element.select(".title a").text();
        String author = element.select(".meta .author").text();
        String date = element.select(".meta .date").text();

        result.add(new HashMap<>(){{
            put("url", url);
            put("title", title);
            put("author", author);
            put("date", date);
        }});
    }

    return result;
}

這一隻 Method 主要負責解析出需要的資料，傳入 HTML 回傳一個 List

首先將原始的 HTML 字串交給 Jsoup 轉換成 Document

Document doc = Jsoup.parse(body);

再來就直接把所有的文章取出，利用跟 CSS 選擇器一樣的方式

articleList 中存放的就是每一個 class 為 r-ent 的 div

Elements articleList = doc.select(".r-ent");

最後利用迴圈把上面分析出來的資訊過濾出來，這部分應該不需要多做解釋

寫過前端的應該很眼熟，上手很快

for (Element element: articleList) {
    String url = element.select(".title a").attr("href");
    String title = element.select(".title a").text();
    String author = element.select(".meta .author").text();
    String date = element.select(".meta .date").text();

    result.add(new HashMap<>(){{
        put("url", url);
        put("title", title);
        put("author", author);
        put("date", date);
    }});
}

至於為什麼不直接回傳 List<Article> 而要另外存到 Map 中呢?

主要是因為這隻 Method 只是負責解析資料，如果要由 Method 來創造 Model

感覺就違反單一原則，所以只回傳一個 Map，由其它地方來處理

PS: 這只是一種 Coding style 而不是準則，所以不需要太計較

第三隻 Method

這是 Reader 的最後一隻 Method，用來讓外部呼叫的入口

當中沒有特別需要講解的部分，都是很簡單的邏輯

public List<Article> getList(String boardName) throws IOException, ParseException {
    Board board = Config.BOARD_LIST.get(boardName);

    /* 如果找不到指定的看板 */
    if (board == null) {
        return null;
    }

    /* 如果看板需要成年檢查 */
    if (board.getAdultCheck() == true) {
        runAdultCheck(board.getUrl());
    }

    /* 抓取目標頁面 */
    Request request = new Request.Builder()
        .url(Config.PTT_URL + board.getUrl())
        .get()
        .build();

    Response response = okHttpClient.newCall(request).execute();
    String body = response.body().string();

    /* 轉換 HTML 到 Article */
    List<Map<String, String>> articles = parseArticle(body);
    List<Article> result = new ArrayList<>();
    SimpleDateFormat simpleDateFormat = new SimpleDateFormat("MM/dd");

    for (Map<String, String> article: articles) {
        String url = article.get("url");
        String title = article.get("title");
        String author = article.get("author");
        Date date = simpleDateFormat.parse(article.get("date"));

        result.add(new Article(board, url, title, author, date));
    }

    return result;
}

完整程式碼

package ptt.crawler;

import org.jsoup.select.Elements;
import ptt.crawler.model.*;
import ptt.crawler.config.Config;

import okhttp3.*;
import org.jsoup.*;
import org.jsoup.nodes.*;

import java.io.IOException;
import java.text.ParseException;
import java.text.SimpleDateFormat;
import java.util.*;

public class Reader {
    private OkHttpClient okHttpClient;
    private final Map<String, List<Cookie>> cookieStore; // 保存 Cookie
    private final CookieJar cookieJar;

    public Reader() throws IOException {
        /* 初始化 */
        cookieStore = new HashMap<>();
        cookieJar = new CookieJar() {
            @Override
            public void saveFromResponse(HttpUrl httpUrl, List<Cookie> list) {
                List<Cookie> cookies = cookieStore.getOrDefault(
                    httpUrl.host(), 
                    new ArrayList<>()
                );
                cookies.addAll(list);
                cookieStore.put(httpUrl.host(), cookies);
            }
            
            /* 每次發送帶上儲存的 Cookie */
            @Override
            public List<Cookie> loadForRequest(HttpUrl httpUrl) {
                return cookieStore.getOrDefault(
                    httpUrl.host(), 
                    new ArrayList<>()
                );
            }
        };
        okHttpClient = new OkHttpClient.Builder().cookieJar(cookieJar).build();

        /* 獲得網站的初始 Cookie */
        Request request = new Request.Builder().get().url(Config.PTT_URL).build();
        okHttpClient.newCall(request).execute();
    }

    public List<Article> getList(String boardName) throws IOException, ParseException {
        Board board = Config.BOARD_LIST.get(boardName);

        /* 如果找不到指定的看板 */
        if (board == null) {
            return null;
        }

        /* 如果看板需要成年檢查 */
        if (board.getAdultCheck() == true) {
            runAdultCheck(board.getUrl());
        }

        /* 抓取目標頁面 */
        Request request = new Request.Builder()
            .url(Config.PTT_URL + board.getUrl())
            .get()
            .build();

        Response response = okHttpClient.newCall(request).execute();
        String body = response.body().string();

        /* 轉換 HTML 到 Article */
        List<Map<String, String>> articles = parseArticle(body);
        List<Article> result = new ArrayList<>();
        SimpleDateFormat simpleDateFormat = new SimpleDateFormat("MM/dd");

        for (Map<String, String> article: articles) {
            String url = article.get("url");
            String title = article.get("title");
            String author = article.get("author");
            Date date = simpleDateFormat.parse(article.get("date"));

            result.add(new Article(board, url, title, author, date));
        }

        return result;
    }

    /* 進行年齡確認 */
    private void runAdultCheck(String url) throws IOException {
        FormBody formBody = new FormBody.Builder()
            .add("from", url)
            .add("yes", "yes")
            .build();

        Request request = new Request.Builder()
            .url(Config.PTT_URL + "/ask/over18")
            .post(formBody)
            .build();

        okHttpClient.newCall(request).execute();
    }

    /* 解析看板文章列表 */
    private List<Map<String, String>> parseArticle(String body) {
        List<Map<String, String>> result = new ArrayList<>();
        Document doc = Jsoup.parse(body);
        Elements articleList = doc.select(".r-ent");

        for (Element element: articleList) {
            String url = element.select(".title a").attr("href");
            String title = element.select(".title a").text();
            String author = element.select(".meta .author").text();
            String date = element.select(".meta .date").text();

            result.add(new HashMap<>(){{
                put("url", url);
                put("title", title);
                put("author", author);
                put("date", date);
            }});
        }

        return result;
    }
}

測試

這邊要使用的測試套件是 JUnit ，使用上很簡單

一樣先裝套件

<dependency>
    <groupId>org.junit.jupiter</groupId>
    <artifactId>junit-jupiter-engine</artifactId>
    <version>5.8.0-M1</version>
    <scope>test</scope>
</dependency>

再將輸入焦點放到 Class 那一行，按下鍵盤的 Alt + Enter

跳出選單後選擇 Create Test 後按下 Entrt

Testing library 選擇 JUnit5

setUp/@Before 打勾，按下 OK

IDE 就會幫你在 test 資料夾中建立好測試的 Class

之後將以下程式碼覆蓋原本的內容

package ptt.crawler;

import org.junit.jupiter.api.Assertions;
import org.junit.jupiter.api.Test;
import ptt.crawler.model.Article;

import java.io.IOException;
import java.text.ParseException;
import java.util.List;

class ReaderTest {
    private Reader reader;

    @org.junit.jupiter.api.BeforeEach
    void setUp() {
        try {
            reader = new Reader();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

    @Test
    void list() {
        try {
            List<Article> result = reader.getList("Gossiping");
            Assertions.assertInstanceOf(List.class, result);
            System.out.println(result);
        } catch (IOException e) {
            e.printStackTrace();
        } catch (ParseException e) {
            e.printStackTrace();
        }
    }
}

之後第 24 行旁邊應該會出現一個綠色箭頭，按下去後選擇 Run 'list()'

跑完後就可以看到文章列表的內容

PS: 這邊沒有講到 JUnit 的用法，有興趣的讀者可以自行去了解

如果覺得 Junit 用法上很麻煩的讀者，也可以直接開一個 Class 去 Run

效果是一樣的，任君挑選

package ptt.crawler;

import ptt.crawler.model.Article;

import java.io.IOException;
import java.text.ParseException;
import java.util.List;

public class Test {
    public static void main(String[] args) {
        try {
            Reader reader = new Reader();
            List<Article> result = reader.getList("Gossiping");
            System.out.println(result);
        } catch (IOException e) {
            e.printStackTrace();
        } catch (ParseException e) {
            e.printStackTrace();
        }
    }
}

後記

首先很感謝將文章看到這邊，此系列旨意在於帶領想要了解爬蟲的讀者們入門

爬蟲說白了就是將平常使用者的操作自動化而已，沒有想像中的複雜

這次選 PTT 來當範例主要也是因為 PTT 是一個很經典的 Web 架構

沒有前後端分離、內容簡單、驗證功能幾乎沒有，是一個很好的範例

之後的幾篇會繼續擴充其他功能，敬請期待

本文章同步張貼於本人部落格

覺得這篇文章有幫助到你的話，請幫我點個 Like

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

1 則留言

regal1218

iT邦新手 5 級 ‧ 2024-09-30 16:37:54

有些圖片無法顯示@@

回應
檢舉

登入發表回應

我要留言

立即登入留言

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙