iT邦幫忙

2023 iThome 鐵人賽

DAY 18
0
AI & Data

30天網路爬蟲學習系列 第 18

DAY18-爬取清單和詳細內容的網頁

  • 分享至 

  • xImage
  •  

Web Scraper爬取超連結<a>標籤是使用Link類型選擇器,今天我們就來進行爬取清單和詳細內容的
演練吧~


本次練習網址為:https://fchart.github.io/test/ex4_02.html
步驟和前幾篇差不多,首先我們建立一個Web Scraper網站地圖,新增名為x_nav的網站地圖。
https://ithelp.ithome.com.tw/upload/images/20231003/201625951IJs0hDOad.jpg


  • 第一層選擇器
    使用Element爬取HTML清單的紀錄:
    在_root跟節點下,新增名為items的節點,Type欄位選擇Element類型,選擇三個<li>標籤,可以取得CSS選擇器li,由於有多筆紀錄,所以要點選Multiple,之後點選Save selector儲存。
    https://ithelp.ithome.com.tw/upload/images/20231003/201625956ahcwDe5WW.jpg

  • 第二層選擇器
    使用Link和Text爬取紀錄的欄位:
    在選擇器清單點選items切換至_root/items路徑下,新增名為a_tag節點,Type欄選Link類型,選擇超連結,可取得CSS選擇器a,不用勾選Muitiple,點選Save selector儲存。
    https://ithelp.ithome.com.tw/upload/images/20231003/20162595ktkjbAZvxM.jpg

  • 第三層選擇器
    爬取詳細頁面的資料:
    在_root/items路徑下點選a_tag再換至下一層選擇器,即_root/items/a_tag路徑,新增名為version的節點,Type欄選Text類型,選擇版本,可以選擇CSS選擇器b:nth-of-type(1),不用勾選Multiple,點選Save selector儲存。
    https://ithelp.ithome.com.tw/upload/images/20231003/20162595rdWRpZC8tk.jpg

接著再_root/items/a_tag路徑再新增一個名為release的節點,Type欄選Text類型,選擇釋出的日期,可取得CSS選擇器b:nth-of-type(2),不用勾選Muitiple,點選Save selector儲存。
https://ithelp.ithome.com.tw/upload/images/20231003/20162595SLYafaQ2zk.jpg


完成的地圖如下所示:
https://ithelp.ithome.com.tw/upload/images/20231003/20162595PfzmRiTZka.jpg
此階層地圖的前面兩層(_root不算)是Element的紀錄和兩個欄位,而第三層是因為第二層Link類型,當Link有下一層選擇器,Web Scraper就會循覽致這層網頁進行擷取資料,而第三層就是擷取詳細頁面的資料。


下面是擷取到的表格資料:
https://ithelp.ithome.com.tw/upload/images/20231003/20162595NZtYkZBBDF.jpg


以Excel開啟匯成的CSV檔案:
https://ithelp.ithome.com.tw/upload/images/20231003/20162595cW7wVHs6uA.jpg


今天的分享就先到這邊啦!我們明天見~ /images/emoticon/emoticon41.gif

參考書籍資料:文科生也可以輕鬆學習網路爬蟲
資料爬取練習來源同書籍


上一篇
DAY17-認識HTML超連結標籤
下一篇
DAY19-認識HTML容器標籤
系列文
30天網路爬蟲學習30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言