Day 8｜網頁資料開箱術(上)：用 HTTP 請求把資訊請回家

2025 iThome 鐵人賽

DAY 8

生成式 AI

17th鐵人賽

554 瀏覽

「會問問題的人，才能真正從網路找到答案。」

在社群經營或行銷工作中，整理資料往往是一件很耗時的事。這幾篇文章，我們要一起學習如何自動化「從網頁抓取資料」，讓機器幫你把重複性工作做掉。

網路上你可能看過很多「n8n + 爬蟲」的分享，但當你真的用在自己的工作場景時，會發現往往沒那麼簡單。因為每個網站的結構不一樣，取得資料的方法也會跟著不同。

所以我們會分成幾篇循序漸進。今天先從最簡單的網頁開始練習：books.toscrape.com。這是一個專門設計來教學的網站，裡面有一堆書目的資料，我們要練習把它們抓出來並轉成檔案下載。

這一次的流程會用到四個節點：

今天我們先學 前兩個節點（抓資料），下篇再教 後兩個節點（萃取 + 下載）。

當我們執行整個 workflow 時（點此獲得模板），點擊「Execute workflow」，畫面上會看到節點一個個跑起來：

當最後一個節點執行完後，你就能點開 Output，看到「Download」按鈕，直接下載檔案。那個檔案就是我們整理出來的書目資料（CSV 格式），裡面會有每本書的標題 (title) 和網址 (url)。

在大多數自動化流程中，我們需要一個「觸發點」來啟動流程。就像活動要有「主持人」喊開始一樣。

這個例子裡，我們沒有特別的事件（例如：每天早上 9 點執行），所以就用 「手動觸發」。

HTTP Request 聽起來很技術，但其實概念很簡單。

回想一下：當你在瀏覽器輸入網址（例如 http://books.toscrape.com），你其實在對網站的伺服器發出一個請求：

👉 你：「嗨，我想看首頁內容！」

👉 伺服器：「好的，這是首頁資料，給你！」

這整個過程就是一次 HTTP Request。

如果你在瀏覽器點右鍵 → 「Show Page Source」，會看到一堆程式碼，那就是網頁的 HTML。

瀏覽器的工作，就是把這些 HTML 轉換成我們熟悉的排版網頁。

在 n8n 裡，我們用 HTTP Request 節點，就能做到一模一樣的事。

雖然現在看到的是一大堆文字，但其實這就是我們抓下來的原始資料。

只是我們真正需要的，只是「書名」和「網址」而已——這就要交給下一篇的 HTML 擷取 + 檔案下載 來處理。

👣 到這裡為止，我們已經完成了「如何從網頁把資料抓回來」的第一步。

下篇，會帶你進一步「把有用的資訊萃取出來」！

小作業 ✍️

到這裡，你已經會用 HTTP Request 把整個網頁抓下來了。接下來，請試試看以下挑戰：

改網址：把 https://books.toscrape.com 改成其他網站（例如 https://quotes.toscrape.com），執行看看，觀察 Output 出來的 HTML 有什麼不同？
找標題：在 Output 的 HTML 程式碼裡，試著搜尋 <title>，看看網頁的標題文字是不是能被你找到。
思考延伸：如果你能抓到標題，那是不是也能抓到其他內容？（例如：商品名稱、價格、作者…）

👉 提示：不用馬上理解所有 HTML，先當作「資料倉庫」，能找到一點線索就是進步。