「會問問題的人,才能真正從網路找到答案。」
在社群經營或行銷工作中,整理資料往往是一件很耗時的事。這幾篇文章,我們要一起學習如何自動化「從網頁抓取資料」,讓機器幫你把重複性工作做掉。
網路上你可能看過很多「n8n + 爬蟲」的分享,但當你真的用在自己的工作場景時,會發現往往沒那麼簡單。因為每個網站的結構不一樣,取得資料的方法也會跟著不同。
所以我們會分成幾篇循序漸進。今天先從最簡單的網頁開始練習:books.toscrape.com。這是一個專門設計來教學的網站,裡面有一堆書目的資料,我們要練習把它們抓出來並轉成檔案下載。
這一次的流程會用到四個節點:
今天我們先學 前兩個節點(抓資料),下篇再教 後兩個節點(萃取 + 下載)。
當我們執行整個 workflow 時(點此獲得模板),點擊「Execute workflow」,畫面上會看到節點一個個跑起來:
當最後一個節點執行完後,你就能點開 Output,看到「Download」按鈕,直接下載檔案。那個檔案就是我們整理出來的書目資料(CSV 格式),裡面會有每本書的標題 (title) 和網址 (url)。
在大多數自動化流程中,我們需要一個「觸發點」來啟動流程。就像活動要有「主持人」喊開始一樣。
這個例子裡,我們沒有特別的事件(例如:每天早上 9 點執行),所以就用 「手動觸發」。
HTTP Request 聽起來很技術,但其實概念很簡單。
回想一下:當你在瀏覽器輸入網址(例如 http://books.toscrape.com
),你其實在對網站的伺服器發出一個請求:
👉 你:「嗨,我想看首頁內容!」
👉 伺服器:「好的,這是首頁資料,給你!」
這整個過程就是一次 HTTP Request。
如果你在瀏覽器點右鍵 → 「Show Page Source」,會看到一堆程式碼,那就是網頁的 HTML。
瀏覽器的工作,就是把這些 HTML 轉換成我們熟悉的排版網頁。
在 n8n 裡,我們用 HTTP Request 節點,就能做到一模一樣的事。
https://books.toscrape.com
雖然現在看到的是一大堆文字,但其實這就是我們抓下來的原始資料。
只是我們真正需要的,只是「書名」和「網址」而已——這就要交給下一篇的 HTML 擷取 + 檔案下載 來處理。
👣 到這裡為止,我們已經完成了「如何從網頁把資料抓回來」的第一步。
下篇,會帶你進一步「把有用的資訊萃取出來」!
到這裡,你已經會用 HTTP Request 把整個網頁抓下來了。接下來,請試試看以下挑戰:
https://books.toscrape.com
改成其他網站(例如 https://quotes.toscrape.com
),執行看看,觀察 Output 出來的 HTML 有什麼不同?<title>
,看看網頁的標題文字是不是能被你找到。👉 提示:不用馬上理解所有 HTML,先當作「資料倉庫」,能找到一點線索就是進步。
我建立了一個行銷技術交流群,專注討論 SEO、行銷自動化等主題,歡迎有興趣的朋友一起加入交流。
掃QR Code 或點擊圖片加入