iT邦幫忙

2025 iThome 鐵人賽

DAY 8
0
生成式 AI

30 天生成式 AI 工作流:社群經營者的自動化實戰系列 第 8

Day 8|網頁資料開箱術(上):用 HTTP 請求把資訊請回家

  • 分享至 

  • xImage
  •  

「會問問題的人,才能真正從網路找到答案。」

在社群經營或行銷工作中,整理資料往往是一件很耗時的事。這幾篇文章,我們要一起學習如何自動化「從網頁抓取資料」,讓機器幫你把重複性工作做掉。

網路上你可能看過很多「n8n + 爬蟲」的分享,但當你真的用在自己的工作場景時,會發現往往沒那麼簡單。因為每個網站的結構不一樣,取得資料的方法也會跟著不同。

所以我們會分成幾篇循序漸進。今天先從最簡單的網頁開始練習:books.toscrape.com。這是一個專門設計來教學的網站,裡面有一堆書目的資料,我們要練習把它們抓出來並轉成檔案下載。

這一次的流程會用到四個節點:

  1. 手動觸發節點 (Manual Trigger)
  2. HTTP 請求節點 (HTTP Request)
  3. HTML 擷取節點 (HTML Extract)
  4. 檔案下載節點 (Convert to File)

今天我們先學 前兩個節點(抓資料),下篇再教 後兩個節點(萃取 + 下載)

當我們執行整個 workflow 時(點此獲得模板),點擊「Execute workflow」,畫面上會看到節點一個個跑起來:

  • 已完成的節點 → 會出現 綠色勾勾
  • 執行中的節點 → 會看到一個小小的「轉圈圈動畫」。

當最後一個節點執行完後,你就能點開 Output,看到「Download」按鈕,直接下載檔案。那個檔案就是我們整理出來的書目資料(CSV 格式),裡面會有每本書的標題 (title) 和網址 (url)。


1. 手動觸發 (Manual Trigger)

在大多數自動化流程中,我們需要一個「觸發點」來啟動流程。就像活動要有「主持人」喊開始一樣。

這個例子裡,我們沒有特別的事件(例如:每天早上 9 點執行),所以就用 「手動觸發」

  • 你可以點擊「Execute step」手動啟動它。
  • 它的 Output 是空的,因為它本身只是一個「起點」而已。
  • 想了解更多,可以點進「Docs」,看到官方的解說。(幾乎所有節點都能這樣查文件)

2. HTTP 請求 (HTTP Request)

HTTP Request 聽起來很技術,但其實概念很簡單。

回想一下:當你在瀏覽器輸入網址(例如 http://books.toscrape.com),你其實在對網站的伺服器發出一個請求:

👉 你:「嗨,我想看首頁內容!」

👉 伺服器:「好的,這是首頁資料,給你!」

這整個過程就是一次 HTTP Request

如果你在瀏覽器點右鍵 → 「Show Page Source」,會看到一堆程式碼,那就是網頁的 HTML

瀏覽器的工作,就是把這些 HTML 轉換成我們熟悉的排版網頁。

在 n8n 裡,我們用 HTTP Request 節點,就能做到一模一樣的事。

  • 在「URL」輸入 https://books.toscrape.com
  • 點擊「Execute step」
  • 你會看到 Output 裡出現了整份網頁的 HTML 程式碼。

雖然現在看到的是一大堆文字,但其實這就是我們抓下來的原始資料。

只是我們真正需要的,只是「書名」和「網址」而已——這就要交給下一篇的 HTML 擷取 + 檔案下載 來處理。


👣 到這裡為止,我們已經完成了「如何從網頁把資料抓回來」的第一步。

下篇,會帶你進一步「把有用的資訊萃取出來」!


小作業 ✍️

到這裡,你已經會用 HTTP Request 把整個網頁抓下來了。接下來,請試試看以下挑戰:

  1. 改網址:把 https://books.toscrape.com 改成其他網站(例如 https://quotes.toscrape.com),執行看看,觀察 Output 出來的 HTML 有什麼不同?
  2. 找標題:在 Output 的 HTML 程式碼裡,試著搜尋 <title>,看看網頁的標題文字是不是能被你找到。
  3. 思考延伸:如果你能抓到標題,那是不是也能抓到其他內容?(例如:商品名稱、價格、作者…)

👉 提示:不用馬上理解所有 HTML,先當作「資料倉庫」,能找到一點線索就是進步。


交流

我建立了一個行銷技術交流群,專注討論 SEO、行銷自動化等主題,歡迎有興趣的朋友一起加入交流。

掃QR Code 或點擊圖片加入

https://ithelp.ithome.com.tw/upload/images/20250901/20178495xURUZaqziV.jpg


上一篇
Day 7 | 分享與借用:學會「複製」比「從零開始」更快
下一篇
Day 9|網頁資料開箱術(下):HTTP 解析入門
系列文
30 天生成式 AI 工作流:社群經營者的自動化實戰9
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言