Day 16｜資料獵人養成記（0）：打造你的第一條「爬蟲生產線」 🕸️

2025 iThome 鐵人賽

DAY 16

生成式 AI

30 天生成式 AI 工作流：社群經營者的自動化實戰系列第 16 篇

17th鐵人賽

Huanry

2025-09-15 00:09:18

400 瀏覽

分享至

資料，就像藏在網頁裡的寶藏，要先學會一點點魔法，才挖得出來。

前面我們學會了許多節點、資料流的基礎運作方式，也開始熟悉如何觸發與執行任務。

接下來，我們要開始學習更複雜的資料流案例，用 n8n 打造一條可以自動「爬取」網站資料的生產線！

為什麼要練習爬蟲？

我們不是要成為專業爬蟲工程師，而是要藉由這個練習，更深入理解資料流的傳輸、處理，以及流程的設計邏輯。

為了簡單上手，我們再次使用這個專門給人練習爬蟲的網站：

🔗 https://books.toscrape.com

在 Day 8、Day 9，我們已經學會如何請求首頁，並解析出首頁 20 本書的書名與連結。

現在，我們要更進一步，把網站上全部 1000 本書的資料都抓下來！

拆解目標：從首頁到全站

觀察一下網站結構，我們會發現幾件事：

每一頁有 20 本書，點進去會看到每本書的詳細資料（價格、庫存、描述等）。
網站共有 50 個分頁。
所以，我們只要：
- 先取得分頁上的 20 本書的標題與 URL
- 再進入每本書的 URL，抓取詳細資料
- 然後重複這個流程 50 次

這就像是在工廠裡建立一條生產線，前段負責「找到書的門牌」、中段負責「進門拿資料」、後段負責「集中整理資料」。

學習設計：五個章節拆解

今天的工作流範本可以在這個個鍊結下載。（鏈結）

爬蟲雖然可以一口氣串成一條完整流程，但為了讓大家一步步理解資料流的傳遞與轉換，我們會拆解成 5 個章節，分別在接下來 5 天學習：

Day 17 ：資料分離與聚合

學會把混在一起的 HTML 資料，拆開後再重新組合
Day 18 ：資料外部儲存及讀取

學會把資料存進 Airtable 這類資料庫，並能再讀出來
Day 19 ：迴圈處理資料（爬每本書）與資料更新

學會讓流程自己重複處理一堆資料，不要靠人力複製節點
Day 20 ：清洗處理資料、Code 節點

學會用程式碼節點來整理、轉換資料格式
Day 21 ：Set 節點以及完整工作流

學會把資料欄位統一整理，並串成一條最終的完整工作流

小作業 🎯

為了預備接下來的章節，今天請先完成以下兩件事：

🧩 將你目前的工作流上傳到白板（n8n canvas）

並試著觀察每個節點，猜猜看它的用途與資料流向
🗄️ 註冊 Airtable 帳號，並在 n8n 裡設定 Airtable 節點的 Credential

（這會在 Day 18 用到）

小結 🌟

這個練習的重點，不是寫出世界上最強的爬蟲，而是要讓你從一條可以自動流動的資料線中，看懂資料流的運作邏輯。

當你真的能做到一鍵爬完整個網站，你會發現，資料流就像水管，只要會接水管，任何資料都能為你所用 💧

交流

我建立了一個行銷技術交流群，專注討論 SEO、行銷自動化等主題，歡迎有興趣的朋友一起加入交流。

掃QR Code 或點擊圖片加入

Day 15｜從工廠線到創作坊：n8n初階學習小結

Day 17｜資料獵人養成記（1）讓資料乖乖排隊：分離與合併 🧩

系列文

30 天生成式 AI 工作流：社群經營者的自動化實戰共 31 篇

RSS系列文訂閱系列文

8 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19867 篇

完賽人數

529 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

30 天生成式 AI 工作流：社群經營者的自動化實戰系列 第 16 篇