DAY11-標題文字標籤爬取練習(下)

2023 iThome 鐵人賽

DAY 11

AI & Data

30天網路爬蟲學習系列第 11 篇

15th鐵人賽

yichenpan

2023-09-26 22:59:58

406 瀏覽

分享至

完成網站地圖後，我們可以使用樹狀結構圖形來掩飾CSS選擇器節點的地圖，執行Sitemap title_tag → Selector graph

最初只有顯示_root節點

點選後就會顯示下一層的三個CSS選擇器

CSS選擇器地圖可以告訴Web Scraper擴充功能如何一層接著一層，依地圖的階層結構從HTML網頁中擷取資料。

步驟四：執行Web Scraper網站地圖爬取資料

成功建立擷取資料的Web Scraper網站地圖後，就可以開始爬取資料了。

1.點選Sitemap title_tag → Scrape 擷取資料

2.輸入送出HTTP請求的間隔時間和載入網頁的延遲時間，預設值是2000毫秒(2秒)，點選Start scraping爬取資料。

3.看到執行完成的彈出式視窗代表已經爬完資料，點選refresh重新載入資料。

這樣子就能看到<h1>、<h2>和<h3>三個標題文字標籤的內容了!

表格由左至右的欄位分別是Web Scraper擴充功能執行爬蟲的編號、起始URL網址和HTML網頁擷取的資料，而同一層CSS選擇器是屬於同一筆資料的欄位。

以上就是這一次的標題文字標籤爬取練習，今天的分享就先到這邊啦!我們明天見~

參考書籍資料：文科生也可以輕鬆學習網路爬蟲

DAY10-標題文字標籤爬取練習(上)

DAY12-匯出爬取資料成為CSV檔案

系列文

30天網路爬蟲學習共 30 篇

RSS系列文訂閱系列文

0 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19860 篇

完賽人數

528 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

30天網路爬蟲學習系列 第 11 篇