💡 在本文章你將學到:如何利用 Action - HTTP 做到爬蟲
本範例要擁有商務/公司帳號以及須額外付費
本文章僅為教育目的
沒錯,Power Automate 也能做到網頁爬蟲這項技術,他可以協助你將網站的資料一一爬取下來應用。然而這項技術是鑽石等級,需要額外付費,因此要謹慎使用!
另外部分網站並無法無腦爬蟲,需要更強大的工具破解,這部分也需要多加留意,以及也要有良好的爬蟲禮儀,至於什麼是良好爬蟲禮儀,以及什麼是網頁爬蟲?請參考 STEAM 教育學習網發布的「關於網頁爬蟲」
這邊整理了 3 項必要任務以及 1 項選擇性任務,後續會與大家解釋各項的細節
⬜ 標的網址
⬜ 期望取得的訊息
⬜ 訊息呈現方式
⬜ (在哪裡、在什麼時候,如何定時通知)
標的網址:https://tw.buy.yahoo.com/rushbuy
這邊我們使用我最常逛的雅虎購物裡的秒殺時時樂作為標的,以我過去的經驗,秒殺時時樂在該商品的特賣時段可以說是最便宜的,因此我個人很喜歡秒殺時時樂這個點子(本台無葉配),且他的網頁並沒有設定太多爬蟲障礙,在合理範圍內使用的話是沒有問題的。
如何查看是否為好爬取的網站?在該頁面按下
F11
→Ctrl+Shift+C
→ 選擇網頁上任一你想取得的物件,如果能透過 Element 找到一樣的內容,大致上代表紀錄也是能相對簡單抓到
期望取得的訊息:連結、商品標題、價格
以秒殺時時樂而言,我想要抓到各時段裡的各品項連結、商品標題、價格,如此一來我才能比價我想要的商品價格對吧?
訊息呈現方式:整理在 Excel 並且以有表頭形式存入
這部分需要先思考過題目性質適合什麼樣的呈現方式,通常都是以 excel, csv 這樣的形式存檔
這點視需求評估是否需要,像我的話會希望可以存在 Excel 的同時,也希望可以進一步以關鍵字的方式從中找到我有興趣的商品是否有更便宜,有的話就以 Teams 通知我
這邊的話我很喜歡利用 Ctrl+Shift+C
這個按鍵或 F12
左上角的那個按鈕找到寶藏,當你開始這個模式後,滑鼠在頁面上游移時你會看到各種綠綠、橘橘和藍藍的色塊在跳動,那其實就是讓我們可以更直覺辨認出網頁裡各個區塊的組成與父子關係,如果你看到各商品被一層藍色色塊包覆住,Bingo!這就是我們在找的寶藏
今天我們已經完成事前準備以及觀察網頁結構了,明天我們帶著這些食材到 Power Automate 實作。那我們明天見啦!
列點摘要 by GenAI
Ctrl+Shift+C
或 F12
)來分析網頁結構的方法,幫助識別需要抓取的資料區塊。