iT邦幫忙

2025 iThome 鐵人賽

DAY 13
0
DevOps

n8n x AI自動化之新手村系列 第 13

Day13 學習網頁爬蟲(上)

  • 分享至 

  • xImage
  •  

今天要來學習網頁爬蟲,我是跟著yt的影片一步步操作(連結放置下面的資料來源),以Books to Scrape這個免費練習爬蟲的網頁來學習如何在n8n操作。

為什麼要學爬蟲?

網路資訊非常多樣,且資訊幾乎都在網頁上,然而問題是:

  • 資訊量太龐大:如果要手動去一頁頁複製貼上,不但花時間,也容易出錯。
  • 沒有 API:並不是所有網站都會提供官方 API(應用程式介面)讓我們方便取得資料。
  • 需要結構化資料:很多網頁的內容對人類很好讀,但對電腦來說只是一堆 HTML,必須額外整理。
    這時候,「爬蟲」就派上用場了。爬蟲能幫我們 自動化收集資料,然後輸出成可以分析、應用的格式。
  • 舉例:
    • 新聞追蹤:想追蹤某個議題,可以每天自動爬取新聞標題與連結。
    • 電商價格比較:爬指定商品的標題與價格,觀察變化。
    • 股市與金融分析:收集股票價格和財報數據,用於市場趨勢分析。
    • 天氣資料收集:AI 訓練資料或數據分析專案,都需要有結構化的大量資料來源,爬蟲就是第一步。

實際操作

https://ithelp.ithome.com.tw/upload/images/20250827/201687590hxbz589yB.png
將網站某一頁的20筆資料進行scrape,並且進到每個書籍詳細頁面把資料抓出來放進google sheet。

  1. 使用jina.ai網站取得網頁的api,複製所生成的代碼
    💡Jina AI公司提供一個好用免費開源工具 Reader API ,只要在想要解析的網址前加上https://r.jina.ai/ 就能直接取得該網頁的純文字內容。這個功能對爬蟲來說非常實用!

  2. 建立HTTP Request節點

    1. Method選擇GET
    2. 點Import cURL將第一步所取得的代碼輸入進去完成設定。
      https://ithelp.ithome.com.tw/upload/images/20250827/20168759WRAPHmt5T8.png
  3. 建立Information Extractor節點,並接上gemini

    1. 以json格式輸入要展示的內容
      https://ithelp.ithome.com.tw/upload/images/20250827/20168759ITIcatqL4N.png
  4. 建立split out節點(重要的一個步驟)

    1. 因為前一步驟輸出的是陣列格式,也就是只有一格item,因此需要分割成一個一個item,可以看到它輸出後為20個items
  5. 建立google sheet節點

    1. 將取得的資料填入試算表
    2. 試算表連結:https://docs.google.com/spreadsheets/d/1INB-V1hSUhRInGje24AOE8scxYcOYDFzq6B36NCWdNg/edit?usp=sharing
      https://ithelp.ithome.com.tw/upload/images/20250827/20168759R2B9S2AjJV.png

資料來源

https://jina.ai/
https://books.toscrape.com/
https://www.koc.com.tw/archives/542920
https://youtu.be/FhSJJVREZec?si=zddjxUEtI1S-QB9I
https://youtu.be/y_awxPv3bfY?si=UT0YdctLSZdxthth


上一篇
DAY 12 學習n8n中的Gemini節點
下一篇
Day14 學習網頁爬蟲(下)
系列文
n8n x AI自動化之新手村15
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言