python 爬蟲網址解析

python scrapy 爬蟲網址

loveotgi 2017-12-28 11:54:03 ‧ 8115 瀏覽

分享至

請問一下各位前輩
問題1
小弟要爬某個網站的所買的東西,第一頁已經可以成功的爬到了
但第二頁之後的,我卻找不到方法可以把
想用 scrapy 工具,但網址的規則卻在中間變化
小弟不知道該怎麼辦,請問有前輩高手可以教教我嗎?
問題2
另外還有一個網站國外的知名拍賣網
我下的語法,大概是前一秒鐘還可以爬到東西
相同的語法,再執行一次,沒有任何東西出來,也沒有錯誤
大概是他的網站,有時間的間隔,防止爬蟲
請問一下有什麼方法,可以抓他的時間間隔,或者是可以破解嗎?

看更多先前的討論...收起先前的討論...

兩津勘吉 iT邦新手 4 級 ‧ 2017-12-28 11:59:39 檢舉

回答第二個問題，現在的網站對於防爬蟲算是很基本的防護功能了，對於爬蟲機也是很基本會遇到的問題，搞個自動跳板是必須的
http://www.cnblogs.com/hearzeus/p/5157016.html

froce iT邦大師 1 級 ‧ 2017-12-28 13:53:48 檢舉

selenium，over。

loveotgi iT邦新手 4 級 ‧ 2017-12-29 08:24:07 檢舉

感謝

loveotgi iT邦新手 4 級 ‧ 2018-01-02 16:00:50 檢舉

請問一下我用 selenium 結果
問題1的下一頁 ID每次都會變
問題2 出現 Message: Process unexpectedly closed with status: 0 這樣的錯誤訊息
我的語法是
import requests
import time
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.common.exceptions import NoSuchElementException
from selenium.webdriver.common.keys import Keys
browser = webdriver.Firefox()
browser.get('要爬的網址')
soup = BeautifulSoup(browser.page_source)
while len(soup.select ('.pagnNextString')) > 0:
count = 1
for aaa in soup.select('.a-col-right'):
print '======[',count,']========='
print aaa.select('.a-text-normal')[0].text.strip()
print aaa.select('.a-offscreen')
count += 1
driver.find_element_by_id("pagnNextString").click()
soup = BeautifulSoup(browser.page_source)

browser.close()
time.sleep(1)
請問我錯在那裡呢?

登入發表討論