iT邦幫忙

0

python 爬蟲網址解析

https://ithelp.ithome.com.tw/upload/images/20171228/20061726UDWzHxitu3.jpg
請問一下各位前輩
問題1
小弟要爬某個網站的所買的東西,第一頁已經可以成功的爬到了
但第二頁之後的,我卻找不到方法可以把
想用 scrapy 工具,但網址的規則卻在中間變化
小弟不知道該怎麼辦,請問有前輩高手可以教教我嗎?
問題2
另外還有一個網站國外的知名拍賣網
我下的語法,大概是前一秒鐘還可以爬到東西
相同的語法,再執行一次,沒有任何東西出來,也沒有錯誤
大概是他的網站,有時間的間隔,防止爬蟲
請問一下有什麼方法,可以抓他的時間間隔,或者是可以破解嗎?

看更多先前的討論...收起先前的討論...
回答第二個問題,現在的網站對於防爬蟲算是很基本的防護功能了,對於爬蟲機也是很基本會遇到的問題,搞個自動跳板是必須的
http://www.cnblogs.com/hearzeus/p/5157016.html
froce iT邦大師 1 級 ‧ 2017-12-28 13:53:48 檢舉
selenium,over。
loveotgi iT邦新手 4 級 ‧ 2017-12-29 08:24:07 檢舉
感謝
loveotgi iT邦新手 4 級 ‧ 2018-01-02 16:00:50 檢舉
請問一下 我用 selenium 結果
問題1的下一頁 ID每次都會變
問題2 出現 Message: Process unexpectedly closed with status: 0 這樣的錯誤訊息
我的語法是
import requests
import time
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.common.exceptions import NoSuchElementException
from selenium.webdriver.common.keys import Keys
browser = webdriver.Firefox()
browser.get('要爬的網址')
soup = BeautifulSoup(browser.page_source)
while len(soup.select ('.pagnNextString')) > 0:
count = 1
for aaa in soup.select('.a-col-right'):
print '======[',count,']========='
print aaa.select('.a-text-normal')[0].text.strip()
print aaa.select('.a-offscreen')
count += 1
driver.find_element_by_id("pagnNextString").click()
soup = BeautifulSoup(browser.page_source)

browser.close()
time.sleep(1)
請問我錯在那裡呢?
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友回答

立即登入回答