iT邦幫忙

2023 iThome 鐵人賽

DAY 20
0
AI & Data

30天網路爬蟲學習系列 第 20

DAY20-爬取HTML容器標籤

  • 分享至 

  • xImage
  •  

由於<div>標籤是用來群組其他元素來建立紀錄和欄位,所以爬取群組的<div>標籤就如同是在爬取多筆紀錄,今天我們就來使用Web Scraper爬取容器標籤吧~
本此練習網址為:https://fchart.github.io/test/ex5_01.html


瀏覽網頁後,開啟開發人員工具可以看到三層巢狀<div>標籤,<div id=”content”>標籤是最上層,在他之下有三個<div class="article lightbiue">和兩個<div class=”article”>子標籤,再下一層也是<div>標籤,最後才是<h2>標籤和<p>標籤。
https://ithelp.ithome.com.tw/upload/images/20231005/20162595bCN28Lh0o1.jpg
https://ithelp.ithome.com.tw/upload/images/20231005/20162595PhBExLXSsY.jpg
https://ithelp.ithome.com.tw/upload/images/20231005/20162595NpguCX612i.jpg
https://ithelp.ithome.com.tw/upload/images/20231005/20162595sWK42v7Ja8.jpg
https://ithelp.ithome.com.tw/upload/images/20231005/20162595Q3fonqhb9t.jpg


在Web Scraper新增一個名為div_tag的網站地圖,準備爬取三個<div class=”artcicle lightbule”>標籤的客戶端網頁技術的<h2>標籤。
https://ithelp.ithome.com.tw/upload/images/20231005/20162595nGQ74MM6Fo.jpg


在_root根節點下新增名為items的節點,在Type欄選擇Element類型,選擇三個<div>標籤,可以取得CSS選擇器div.lightbule,由於有多個,所以要勾選Multipe,點選Save selector儲存。
https://ithelp.ithome.com.tw/upload/images/20231005/20162595m3bOLVTwqw.jpg


切換到_root/items路徑下,新增名為title的Text類型選擇器,選擇文字內容是HTML的<h2>標籤,可以取得CSS選擇器h2,點選Save selector儲存。
https://ithelp.ithome.com.tw/upload/images/20231005/20162595PktlvqX12V.jpg

再新增一個名為note的Text類型選擇器,CSS選擇器是p。
https://ithelp.ithome.com.tw/upload/images/20231005/20162595qQ5jfOWh62.jpg


新增完成後,就完成了網站地圖的建立。
https://ithelp.ithome.com.tw/upload/images/20231005/20162595NtgPvHModG.jpg


接下來使用Web Scraper執行網站地圖來爬取巢狀<div>標籤的資料,就可以看到擷取到的表格資料。
https://ithelp.ithome.com.tw/upload/images/20231005/201625955bZriE3Eos.jpg

以Excel開啟匯成的CSV檔案:
https://ithelp.ithome.com.tw/upload/images/20231005/20162595mL4m9si60Y.jpg
這樣子就完成了!!


今天的分享就先到這邊,我們明天見~ /images/emoticon/emoticon41.gif

參考書籍資料:文科生也可以輕鬆學習網路爬蟲
資料爬取練習來源同書籍


上一篇
DAY19-認識HTML容器標籤
下一篇
DAY21-認識網站巡覽
系列文
30天網路爬蟲學習30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言