同一個 IP 針對特定網站, 連續快速的執行 GET/POST 指令, 很容易被偵測到, 然後擋掉...
要嘛, 你就放慢速度, 慢到好像是真人在瀏覽那樣慢;
要嘛, 你就不停換IP, 每發一個 GET/POST 就換一個新 IP...
不過, 比較高階的防禦端, 仍然有辦法偵測到上面行為, 把你揪出來...
爬蟲是非常不受網站歡迎的行為, 具備防禦能力的網站都會設法擋掉....
你就慢慢跟防禦設備來鬥智吧...若能想出辦法, 說不定還可以賣錢....
正規做法應該是透過網站允許的 API 或者公開的 Open Data 取得資料:
https://www.google.com/search?q=%E5%8F%B0%E9%9B%BB+open+data
透過 proxy 訪問試試
#firefox_proxies.ssl_proxy = '117.26.231.79:7082'
#firefox_proxies.add_to_capabilities(firefox_capabilities)
自己多準備幾個自己掉換一下就好了 !!
user_agent 也記得換換 !!
profile.set_preference('general.useragent.override', user_agent)
網站就不歡迎頻繁的爬蟲
你只能Try看看,
他到底定義短時間多久不超過幾次
或是短時間只能一次去調整頻率
不歡迎爬蟲的網站 也不會公開自己的策略
你只能試試看到對
也許哪天政策又會更嚴格
你又要重新來研究他的頻率政策改多嚴
不然就是對方有公開API,走正規的方式
API通常會說明他們的訪問政策限制
如果網管看報表 把你永ban也不是不可能
If you don't want to block ip then you can TOR browser or VPN. It is a good option for you i think.