DAY16-爬取HTML表格標籤練習(下)

2023 iThome 鐵人賽

DAY 16

AI & Data

30天網路爬蟲學習系列第 16 篇

15th鐵人賽

yichenpan

2023-10-01 00:11:26

845 瀏覽

分享至

今天我們就來使用Web Scraper爬取<table>標籤吧!

本次練習網址為：https://fchart.github.io/test/ex3_03.html

步驟1：瀏覽網頁內容

按F12或是Ctrl+Shfit+I開啟開發人員工具，在開發工具中，可以看到<table>、<tr>和<td>標籤的階層結構。

步驟2：新增網站地圖專案

在Sitemap name輸入名稱，Strat URL欄輸入起始URL網址後按Create Sitemap新增網站地圖。

步驟3：簡立網站爬取的CSS選擇器地圖

建好地圖專案後，就可以新增CSS選擇器，這次使用Table結點類型來擷取HTML表格標籤。

1.點選Add new Selector新增目前_root節點下的CSS選擇器，在Id欄位輸入名稱table_tag，Type欄選Table，在Selector欄點選Select。

可以看到上面的Table選擇器類型有三個CSS選擇器：

Selector：選取HTML表格的<table>標籤。
Header row selector：選取標題列的HTML標籤，這是單列。
Data row selector：選取資料列的HTML標籤，通常是多列。

2.在網頁移動游標，點選HTML標格的<table>標籤，會看到CSS選擇器是table，點選Done selecting完成選擇。

3.這時會看到自動填入標題列和資料列的CSS選擇器，Selector欄是table；Header row selector欄是tr:nth-of-type(1)，即第一列；Data row selector欄是tr:nth-of-type(n+2)，即第一列之後的所有列。

4.在下方列出的自動取得欄位清單，可在Include into result欄勾選擷取那些欄位，由於表格資料列有多列，請勾選Multiple，(沒有勾選的話，只會擷取第一列資料列)；Result key名稱必須是英文字母開頭，所以將欄的中文都改成英文名稱company、contact、country和sales，點選Save selector紐。