Day04_Scrapy建立專案擷取資料(XPATH)

第 12 屆 iThome 鐵人賽

DAY 2

自我挑戰組

爬蟲初體驗系列第 4 篇

12th鐵人賽

paulpoiu123

2020-09-07 02:37:41

2319 瀏覽

分享至

SCRAPY支援不同選擇器來將網頁的資料分離。

選擇器分為兩種:
-CSS
-XPATH

>>> response.xpath('//span/text()').get()
'good'
>>> response.css('span::text').get()
'good'

你如何在網頁中知道你該如何取得XPATH?
01.透過瀏覽器CHROMA或是FIREFOX
02.按下F12
03.透過圖片所示導引點取想要擷取的資訊
04.瀏覽器會跳到程式碼，你在程式碼上即可進行複製(複製XPATH位置)

透過CHROMA複製(XPATH)，此部分會先對應到ID部分
// *[ @ id = "app"] / div / div[2] / div[1] / div[2] / div[1] / div[1] / div / a / div[2] / div[1] / h2
透過CHROMA複製(完整XPATH)
/html/body/div[1]/div/div[2]/div[1]/div[2]/div[1]/div[1]/div/a/div[2]/div[1]/h2
透過FIREFOX
/html/body/div[2]/div/div[2]/div[1]/div[2]/div[1]/div[1]/div/a/div[2]/div[1]/h2

既然你已經知道了，你可以可以將此段加入程式碼中。

location1 = response.xpath('/html/body/div[2]/div/div[2]/div[1]/div[2]/div[1]/div[1]/div/a/div[2]/div[1]/h2/text()').extract()[0]

這樣即可以取到你想到的數值

Day03_Scrapy建立專案

系列文

爬蟲初體驗共 4 篇

RSS系列文訂閱系列文

3 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19860 篇

完賽人數

528 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

爬蟲初體驗系列 第 4 篇

Day04_Scrapy建立專案擷取資料(XPATH)

尚未有邦友留言

標記使用者

爬蟲初體驗系列第 4 篇