Java爬蟲挑戰 Day 5 - Spring boot專案建立 & Jsoup爬取HTML資料 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2024 iThome 鐵人賽

DAY 5

Software Development

我命由我不由語言 java爬蟲挑戰系列第 5 篇

Java爬蟲挑戰 Day 5 - Spring boot專案建立 & Jsoup爬取HTML資料

16th鐵人賽

小草

團隊看不見未來

2024-08-22 15:01:09

762 瀏覽

分享至

今天我們開始實際開發，重點是建立Spring boot專案。

GitHub連結

以後程式碼的改動都會使用此git
https://github.com/a951753sxd/rental-crawler

使用 Spring Initializr 建立專案

首先，我們利用 Spring Initializr 建立了一個 Java Maven 專案。

Maven Pom.xml 說明

簡要說明一下依賴到哪些工具

Spring Boot Starter
spring-boot-starter 是 Spring Boot 的核心啟動器，包含了 Spring Framework 以及其他必要的庫，能夠快速搭建 Spring 應用。
Spring Boot Test
spring-boot-starter-test 是一個 Spring Boot 測試模組，提供了常見的測試庫和功能，如 JUnit、Mockito 等，用於編寫和運行單元測試。
Logback
logback-classic 是 Logback 的核心模組，用於日誌記錄。Logback 是目前 Spring Boot 的預設日誌系統。
Jsoup
jsoup 是一個用於解析 HTML 的 Java 庫，適合用來編寫網頁爬蟲。
Selenium
selenium-java 是 Selenium 的 Java 綁定庫，用於自動化瀏覽器操作，適合處理動態加載的網頁。

logback.xml 設定

定義Log的層級、格式等...

<!-- logback.xml -->

<configuration>

    <appender name="console" class="ch.qos.logback.core.ConsoleAppender">
        <encoder>
            <pattern>[%d][%p][%t][%C{0}:%L]: %msg%n</pattern>
        </encoder>
    </appender>

    <appender name="file" class="ch.qos.logback.core.rolling.RollingFileAppender">
        <file>logs/app.log</file>
        <encoder class="ch.qos.logback.classic.encoder.PatternLayoutEncoder">
            <Pattern>
				<pattern>[%d][%p][%t][%C{0}:%L]: %msg%n</pattern>
            </Pattern>
        </encoder>

        <rollingPolicy class="ch.qos.logback.core.rolling.TimeBasedRollingPolicy">
            <!-- rollover daily -->
            <fileNamePattern>logs/app.%d{yyyy-MM-dd}.%i.log
            </fileNamePattern>
            <timeBasedFileNamingAndTriggeringPolicy class="ch.qos.logback.core.rolling.SizeAndTimeBasedFNATP">
                <maxFileSize>100MB</maxFileSize>
            </timeBasedFileNamingAndTriggeringPolicy>
        </rollingPolicy>
    </appender>

    <root level="info">
        <appender-ref ref="console" />
        <appender-ref ref="file" />
    </root>

</configuration>

建立 Service 及 Interface

RentalCrawlerService.java

接著，我們在專案中建立了一個 RentalCrawlerService 介面。
目前只有一個方法，為抓取資料

package tw.grass.rental_crawler.service;

public interface RentalCrawlerService {
    void fetchRentalData();
}

RentalCrawlerServiceImpl.java.

實作類別 RentalCrawlerServiceImpl
切分介面與實作，這樣的設計有助於未來進行擴展和測試。

package tw.grass.rental_crawler.service.impl;

import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.springframework.stereotype.Service;

import tw.grass.rental_crawler.service.RentalCrawlerService;

@Service
public class RentalCrawlerServiceImpl implements RentalCrawlerService {

    Logger log = LoggerFactory.getLogger(RentalCrawlerService.class);

    @Override
    public void fetchRentalData() {
        log.info("Starting to fetch rental data...");
        try {
            //這邊使用591的條件other=newPost:新上架、sort=posttime_desc:排序為新到舊
            String urlString = "https://rent.591.com.tw/list?other=newPost&sort=posttime_desc";

            // 提取連結中的HTML資訊
            Document doc = Jsoup.connect(urlString).get();
            // 在這裡解析HTML並提取所需數據
            parseHTML(doc);


            log.info("Successfully fetched rental data");
        } catch (Exception e) {
            log.error("Error while fetching rental data", e);
        }
    }

    //TODO: 處理資料邏輯代寫
    private void parseHTML(Document doc) {
    }
}

StartupRunner.java

那服務完成後，目前沒有程式進入點
目前為啟動程式一次，就去爬取資料一次
Autowired我們的Service後執行fetchRentalData

package tw.grass.rental_crawler;

import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.boot.ApplicationArguments;
import org.springframework.boot.ApplicationRunner;
import org.springframework.stereotype.Component;

import tw.grass.rental_crawler.service.RentalCrawlerService;

@Component
public class StartupRunner implements ApplicationRunner {

    @Autowired
    RentalCrawlerService rentalCrawlerService;

    @Override
    public void run(ApplicationArguments args) throws Exception {
        rentalCrawlerService.fetchRentalData();
    }
}