iT邦幫忙

第 12 屆 iThome 鐵人賽

DAY 2
0
自我挑戰組

爬蟲初體驗系列 第 4

Day04_Scrapy建立專案擷取資料(XPATH)

SCRAPY支援不同選擇器來將網頁的資料分離。

選擇器分為兩種:
-CSS
-XPATH

>>> response.xpath('//span/text()').get()
'good'
>>> response.css('span::text').get()
'good'

你如何在網頁中知道你該如何取得XPATH?
01.透過瀏覽器CHROMA或是FIREFOX
02.按下F12
03.透過圖片所示導引點取想要擷取的資訊
04.瀏覽器會跳到程式碼,你在程式碼上即可進行複製(複製XPATH位置)
https://ithelp.ithome.com.tw/upload/images/20200907/20109167l5OIX8qR18.png
https://ithelp.ithome.com.tw/upload/images/20200907/20109167Uy0HKAovTa.png

透過CHROMA複製(XPATH),此部分會先對應到ID部分
// *[ @ id = "app"] / div / div[2] / div[1] / div[2] / div[1] / div[1] / div / a / div[2] / div[1] / h2
透過CHROMA複製(完整XPATH)
/html/body/div[1]/div/div[2]/div[1]/div[2]/div[1]/div[1]/div/a/div[2]/div[1]/h2
透過FIREFOX
/html/body/div[2]/div/div[2]/div[1]/div[2]/div[1]/div[1]/div/a/div[2]/div[1]/h2

既然你已經知道了,你可以可以將此段加入程式碼中。

location1 = response.xpath('/html/body/div[2]/div/div[2]/div[1]/div[2]/div[1]/div[1]/div/a/div[2]/div[1]/h2/text()').extract()[0]

這樣即可以取到你想到的數值


上一篇
Day03_Scrapy建立專案
系列文
爬蟲初體驗4
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言