iT邦幫忙

2023 iThome 鐵人賽

DAY 11
0
AI & Data

30天網路爬蟲學習系列 第 11

DAY11-標題文字標籤爬取練習(下)

  • 分享至 

  • xImage
  •  

完成網站地圖後,我們可以使用樹狀結構圖形來掩飾CSS選擇器節點的地圖,執行Sitemap title_tag → Selector graphhttps://ithelp.ithome.com.tw/upload/images/20230926/20162595oha9fL0FsQ.jpg

最初只有顯示_root節點
https://ithelp.ithome.com.tw/upload/images/20230926/20162595m1nrfDfuJG.jpg

點選後就會顯示下一層的三個CSS選擇器
https://ithelp.ithome.com.tw/upload/images/20230926/20162595nxBJOw2XJO.jpg

  • CSS選擇器地圖可以告訴Web Scraper擴充功能如何一層接著一層,依地圖的階層結構從HTML網頁中擷取資料。

步驟四:執行Web Scraper網站地圖爬取資料

成功建立擷取資料的Web Scraper網站地圖後,就可以開始爬取資料了。

1.點選Sitemap title_tag → Scrape 擷取資料
https://ithelp.ithome.com.tw/upload/images/20230926/2016259509146m8LcJ.jpg

2.輸入送出HTTP請求的間隔時間和載入網頁的延遲時間,預設值是2000毫秒(2秒),點選Start scraping爬取資料。
https://ithelp.ithome.com.tw/upload/images/20230926/20162595NyrAc5DArq.jpg

3.看到執行完成的彈出式視窗代表已經爬完資料,點選refresh重新載入資料。
https://ithelp.ithome.com.tw/upload/images/20230926/20162595KrJdvayKjZ.jpg

這樣子就能看到<h1><h2><h3>三個標題文字標籤的內容了!
https://ithelp.ithome.com.tw/upload/images/20230926/20162595V3tOI6QGZ8.jpg

表格由左至右的欄位分別是Web Scraper擴充功能執行爬蟲的編號、起始URL網址和HTML網頁擷取的資料,而同一層CSS選擇器是屬於同一筆資料的欄位。


以上就是這一次的標題文字標籤爬取練習,今天的分享就先到這邊啦!我們明天見~/images/emoticon/emoticon41.gif

參考書籍資料:文科生也可以輕鬆學習網路爬蟲


上一篇
DAY10-標題文字標籤爬取練習(上)
下一篇
DAY12-匯出爬取資料成為CSV檔案
系列文
30天網路爬蟲學習30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言