Day13 學習網頁爬蟲(上)

2025 iThome 鐵人賽

DAY 13

DevOps

17th鐵人賽

803 瀏覽

今天要來學習網頁爬蟲，我是跟著yt的影片一步步操作(連結放置下面的資料來源)，以Books to Scrape這個免費練習爬蟲的網頁來學習如何在n8n操作。

網路資訊非常多樣，且資訊幾乎都在網頁上，然而問題是：

資訊量太龐大：如果要手動去一頁頁複製貼上，不但花時間，也容易出錯。
沒有 API：並不是所有網站都會提供官方 API（應用程式介面）讓我們方便取得資料。
需要結構化資料：很多網頁的內容對人類很好讀，但對電腦來說只是一堆 HTML，必須額外整理。
這時候，「爬蟲」就派上用場了。爬蟲能幫我們 自動化收集資料，然後輸出成可以分析、應用的格式。

舉例：
- 新聞追蹤：想追蹤某個議題，可以每天自動爬取新聞標題與連結。
- 電商價格比較：爬指定商品的標題與價格，觀察變化。
- 股市與金融分析：收集股票價格和財報數據，用於市場趨勢分析。
- 天氣資料收集：AI 訓練資料或數據分析專案，都需要有結構化的大量資料來源，爬蟲就是第一步。

將網站某一頁的20筆資料進行scrape，並且進到每個書籍詳細頁面把資料抓出來放進google sheet。

使用jina.ai網站取得網頁的api，複製所生成的代碼
💡Jina AI公司提供一個好用免費開源工具 Reader API ，只要在想要解析的網址前加上https://r.jina.ai/ 就能直接取得該網頁的純文字內容。這個功能對爬蟲來說非常實用!
建立HTTP Request節點
1. Method選擇GET
2. 點Import cURL將第一步所取得的代碼輸入進去完成設定。
建立Information Extractor節點，並接上gemini
1. 以json格式輸入要展示的內容
建立split out節點(重要的一個步驟)
1. 因為前一步驟輸出的是陣列格式，也就是只有一格item，因此需要分割成一個一個item，可以看到它輸出後為20個items
建立google sheet節點
1. 將取得的資料填入試算表
2. 試算表連結:https://docs.google.com/spreadsheets/d/1INB-V1hSUhRInGje24AOE8scxYcOYDFzq6B36NCWdNg/edit?usp=sharing