iT邦幫忙

2023 iThome 鐵人賽

DAY 14
0
AI & Data

30天網路爬蟲學習系列 第 14

DAY14-爬取清單項目練習(後)

  • 分享至 

  • xImage
  •  

今天我們就來使用Web Scraper練習爬取<ol><ul>兩種標籤吧~


本次練習網址為:https://fchart.github.io/test/ex3_01.html

步驟1:瀏覽網頁內容

https://ithelp.ithome.com.tw/upload/images/20230929/20162595ao1mDXqrLN.jpg
按F12或是Ctrl+Shfit+I開啟開發人員工具,停駐視窗選擇在下方;
選擇元素(Elements)標籤,可以看到<ul><ol>兩種標籤。
https://ithelp.ithome.com.tw/upload/images/20230929/20162595POALiI8RbD.jpg


步驟2:新增網站地圖專案

在Sitemap name輸入名稱,Strat URL欄輸入起始URL網址後按Create Sitemap新增網站地圖。
https://ithelp.ithome.com.tw/upload/images/20230929/20162595IgLHtUJvmk.jpg


步驟3:建立網站爬取的CSS選擇器地圖

1.在下方Add new Selector紐新增目前 _root節點下的CSS選擇器節點。
https://ithelp.ithome.com.tw/upload/images/20230929/20162595W85arwgG4p.jpg
2.在Id欄未輸入名稱list_tag,Type欄選Text,因為有多筆HTML清單標籤,勾選Multiple後,按Select紐。
https://ithelp.ithome.com.tw/upload/images/20230929/20162595FngV3MmJEy.jpg
3.在網頁移動游標,點選第一個<ul>標籤的HTML元素,可以看到CSS選擇器是ul。
https://ithelp.ithome.com.tw/upload/images/20230929/20162595GmE5r4cVU2.jpg
4.配合Shift鍵選取多個元素,即可點選第二個<ol>標籤,CSS選擇器是ul,ol(逗號分隔多個型態選擇器,表示同時選擇多種HTML標籤)按Done selecting紐。
https://ithelp.ithome.com.tw/upload/images/20230929/201625953su4xat3lm.jpg
5.可在下方欄未填入CSS選擇器ul,ol,按Element preview和 Data preview紐預覽選擇的HTML元素。
https://ithelp.ithome.com.tw/upload/images/20230929/20162595ZOvYPQoNJY.jpg
https://ithelp.ithome.com.tw/upload/images/20230929/20162595U9cDk2lCm2.jpg
6.點選Save selector儲存選擇器節點,可以在_root跟節點下新增list_tag的選擇器節點,Multiple是yes多筆。
https://ithelp.ithome.com.tw/upload/images/20230929/20162595hWIMsG60XR.jpg
7.執行Sitemaplist_tag>Selector graph命令,一開始只有_root節點,點擊即可顯示下一層的CSS選擇器list_tag。
https://ithelp.ithome.com.tw/upload/images/20230929/20162595ZTlbrnPQRw.jpg


步驟四:執行Web Scraper網站地圖爬取資料

點選Sitemap title_tag → Scrape 命令執行網路爬蟲,輸入送出HTTP請求的間隔時間和載入網頁的延遲時間,預設值是2000毫秒(2秒),點選Start scraping爬取資料。
https://ithelp.ithome.com.tw/upload/images/20230929/20162595AgPFBpgldF.jpg
爬完之後,點選refresh重新載入資料。
https://ithelp.ithome.com.tw/upload/images/20230929/20162595NrR3tfFOIZ.jpg
可以看到擷取完的資料有兩個清單<li>的內容,這是用空白字元分隔的項目資料。
https://ithelp.ithome.com.tw/upload/images/20230929/20162595WBeqmZ0Jxb.jpg


接著我們就來匯出爬取後的資料,將其轉為CSV檔案!
點選Sitemap title_tag → Export data → Download as .CSV,匯出爬取資料成為CSV檔案。
https://ithelp.ithome.com.tw/upload/images/20230929/201625958BDaJUY9dp.jpg
這樣子就完成啦!


今天的分享就先到這邊啦!我們明天見~ /images/emoticon/emoticon41.gif

參考書籍資料:文科生也可以輕鬆學習網路爬蟲
資料爬取練習來源同書籍


上一篇
DAY13-爬取清單項目練習(前)
下一篇
DAY15-爬取HTML表格標籤練習(上)
系列文
30天網路爬蟲學習30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言