iT邦幫忙

2025 iThome 鐵人賽

DAY 16
0
生成式 AI

30 天生成式 AI 工作流:社群經營者的自動化實戰系列 第 16

Day 16|資料獵人養成記(0):打造你的第一條「爬蟲生產線」 🕸️

  • 分享至 

  • xImage
  •  

資料,就像藏在網頁裡的寶藏,要先學會一點點魔法,才挖得出來。

前面我們學會了許多節點、資料流的基礎運作方式,也開始熟悉如何觸發與執行任務。

接下來,我們要開始學習更複雜的資料流案例,用 n8n 打造一條可以自動「爬取」網站資料的生產線


為什麼要練習爬蟲?

我們不是要成為專業爬蟲工程師,而是要藉由這個練習,更深入理解資料流的傳輸、處理,以及流程的設計邏輯

為了簡單上手,我們再次使用這個專門給人練習爬蟲的網站:

🔗 https://books.toscrape.com

在 Day 8、Day 9,我們已經學會如何請求首頁,並解析出首頁 20 本書的書名與連結。

現在,我們要更進一步,把網站上全部 1000 本書的資料都抓下來!


拆解目標:從首頁到全站

觀察一下網站結構,我們會發現幾件事:

  1. 每一頁有 20 本書,點進去會看到每本書的詳細資料(價格、庫存、描述等)。
  2. 網站共有 50 個分頁。
  3. 所以,我們只要:
    • 先取得分頁上的 20 本書的標題與 URL
    • 再進入每本書的 URL,抓取詳細資料
    • 然後重複這個流程 50 次

這就像是在工廠裡建立一條生產線,前段負責「找到書的門牌」、中段負責「進門拿資料」、後段負責「集中整理資料」。


學習設計:五個章節拆解

https://ithelp.ithome.com.tw/upload/images/20250914/20178495ct7ExbycBw.png

今天的工作流範本可以在這個個鍊結下載。(鏈結

爬蟲雖然可以一口氣串成一條完整流程,但為了讓大家一步步理解資料流的傳遞與轉換,我們會拆解成 5 個章節,分別在接下來 5 天學習:

  1. Day 17 :資料分離與聚合

    學會把混在一起的 HTML 資料,拆開後再重新組合

  2. Day 18 :資料外部儲存及讀取

    學會把資料存進 Airtable 這類資料庫,並能再讀出來

  3. Day 19 :迴圈處理資料(爬每本書)與資料更新

    學會讓流程自己重複處理一堆資料,不要靠人力複製節點

  4. Day 20 :清洗處理資料、Code 節點

    學會用程式碼節點來整理、轉換資料格式

  5. Day 21 :Set 節點以及完整工作流

    學會把資料欄位統一整理,並串成一條最終的完整工作流


小作業 🎯

為了預備接下來的章節,今天請先完成以下兩件事:

  • 🧩 將你目前的工作流上傳到白板(n8n canvas)

    並試著觀察每個節點,猜猜看它的用途與資料流向

  • 🗄️ 註冊 Airtable 帳號,並在 n8n 裡設定 Airtable 節點的 Credential

    (這會在 Day 18 用到)


小結 🌟

這個練習的重點,不是寫出世界上最強的爬蟲,而是要讓你從一條可以自動流動的資料線中,看懂資料流的運作邏輯

當你真的能做到一鍵爬完整個網站,你會發現,資料流就像水管,只要會接水管,任何資料都能為你所用 💧


交流

我建立了一個行銷技術交流群,專注討論 SEO、行銷自動化等主題,歡迎有興趣的朋友一起加入交流。

掃QR Code 或點擊圖片加入

https://ithelp.ithome.com.tw/upload/images/20250901/20178495xURUZaqziV.jpg


上一篇
Day 15|從工廠線到創作坊:n8n初階學習小結
系列文
30 天生成式 AI 工作流:社群經營者的自動化實戰16
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言