iT邦幫忙

2025 iThome 鐵人賽

DAY 11
1
生成式 AI

30 天生成式 AI 工作流:社群經營者的自動化實戰系列 第 11

Day 11|HTTP 抓不到資料?試試用第三方 API 幫你搬運

  • 分享至 

  • xImage
  •  

當你被技術卡住時,別忘了換個角度,有時不是自己硬闖,而是找到能幫你開門的鑰匙。

在 Day 8 我們學過,透過 HTTP Request 可以拿到網頁的 HTML 程式碼。

HTML 本質上就是一堆文字標籤,瀏覽器則是把它「翻譯」成我們眼睛看到的畫面。

不過,現實沒這麼簡單。

有些網頁,你直接抓 HTML,卻什麼都看不到!

這是因為:

  • 有的網站需要 JavaScript 渲染 才能顯示內容(像是先跑一段程式碼才會出現結果)。
  • 有的需要 登入驗證 才能進入。

舉個例子,我們打開這個頁面(這是過去我曾做過SEO共學小組的活動頁):

👉 https://www.accupass.com/event/2105031734251520643298

然後查看它的 HTML 原始碼。

結果發現:完全沒有網頁上顯示的活動資訊!

這也是為什麼很多人說:爬蟲技術是門大學問

n8n 本身不是爬蟲工具,它的強項是「把工具串起來」。所以我們需要借助更專業的工具來補足。

https://ithelp.ithome.com.tw/upload/images/20250910/20178495tqKU14sTPK.png


使用第三方工具:Jina.ai Reader API

今天介紹一個好用又簡單的第三方服務 Jina.ai Reader API

它能幫你:

  • 把需要渲染的網頁載入
  • 整理成乾淨的文字或 Markdown
  • 輸出成 AI 或程式容易處理的格式

最簡單的用法

只要在網址前加上前綴:

https://r.jina.ai/

例如:

👉 https://r.jina.ai/https://www.accupass.com/event/2105031734251520643298

這樣就能獲取整理過的內容。

https://ithelp.ithome.com.tw/upload/images/20250910/201784956Wijfj1qjC.png

更進階的用法

  1. 進入 jina.ai 官網,點擊「< > API」。
  2. 左邊輸入想解析的網址,還能設定參數(輸出格式、是否要先跑 JavaScript、瀏覽器版本等)。
  3. 右邊會顯示對應的 cURL 指令,並且可以按「GET RESPONSE」直接測試輸出結果。

👉 什麼是 cURL?

想像它是一種「命令列瀏覽器」。

我們平常在瀏覽器輸入網址,會看到漂亮的網頁畫面;

而用 cURL,拿到的是背後的「原始資料」:JSON、文字,方便程式直接用。

當我們在這個測試面板,確認了某種參數組合能拿到需要的資訊,就可以把那段 cURL 指令複製下來。接著,我們就能在 n8n 裡重現這個操作。

https://ithelp.ithome.com.tw/upload/images/20250910/201784953Yr1QAoa4k.png

在 n8n 中使用 Jina API

  1. 建立基礎流程
    • 從「手動觸發」節點 → 接到 HTTP Request 節點。
    • 在 URL 填入想要爬的網址,點「Execute Step」。
    • 你會發現:沒拿到想要的資訊。

https://ithelp.ithome.com.tw/upload/images/20250910/20178495xICnlhhL5u.png

  1. 匯入 cURL
    • 在 HTTP Request 節點裡,找到「Import cURL」。
    • 把剛剛複製的 cURL 貼上。
    • 點擊「Import」。

https://ithelp.ithome.com.tw/upload/images/20250910/20178495XT2mn3OGDV.png

  1. 執行測試
    • 按「Execute Step」,這次在 Output 就能看到整理好的內容!

https://ithelp.ithome.com.tw/upload/images/20250910/20178495HoQvmhivXk.png

透過這樣的方式,我們就能把 n8n 的能力擴充,處理那些單靠 HTTP Request 拿不到的資料。


小結

你可以把 Jina.ai 想成「外包助手」:

  • 你不用自己處理複雜的渲染和格式化
  • 它幫你把網頁打包好,丟給 n8n 直接用

不過要注意,每個 API 都有自己的限制,可能需要不同的參數設定。

而這些參數該怎麼調?其實也可以再交給 AI 幫忙。

在下一篇,我們就要來談 「把工具交給 AI 自己操作」 也就是最近很火的 MCP(Model Context Protocol) 概念。


✏️ 小作業

試著用 Jina.ai 去抓一個你常用的網站:

  1. 先加上 https://r.jina.ai/ 前綴測試看看。
  2. 再進 API 面板嘗試不同參數設定,觀察結果有何不同。
  3. 想一想,這些限制會不會影響到你的實際需求?

交流

我建立了一個行銷技術交流群,專注討論 SEO、行銷自動化等主題,歡迎有興趣的朋友一起加入交流。

掃QR Code 或點擊圖片加入

https://ithelp.ithome.com.tw/upload/images/20250901/20178495xURUZaqziV.jpg


上一篇
Day 10|HTML看不懂?AI幫你自動解析
下一篇
Day 12|懶人必備:什麼都不用懂,把工具交給 AI Agent(MCP入門)
系列文
30 天生成式 AI 工作流:社群經營者的自動化實戰16
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言