iT邦幫忙

0

爬蟲IP被鎖

ddx 2022-03-10 15:19:552212 瀏覽
  • 分享至 

  • xImage

最近爬台電網站的資料https://hvcs.taipower.com.tw/
結果IP被鎖住,但是過一陣子之後就會解開了
有什麼方式是不會被鎖IP的嗎?
我目前用selenium的方式

Yori iT邦新手 5 級 ‧ 2022-03-10 16:09:32 檢舉
時間調太快啦
Yori iT邦新手 5 級 ‧ 2022-03-10 16:11:21 檢舉
不然就b手段,每被鎖一次就換一個vpn
以前練爬蟲很常幹這種事
淺水員 iT邦大師 6 級 ‧ 2022-03-10 16:59:56 檢舉
練習時我都會先把網站資料暫存在一個檔案
先用那個檔案練習或開發
正式測試才會直接抓網站資料
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中
4
海綿寶寶
iT邦大神 1 級 ‧ 2022-03-10 15:44:03
最佳解答

過一陣子之後就會解開

這句話表示「時間間隔」是因素

可以試著逐漸加大每次爬蟲執行的時間間隔
直到不會被鎖IP為止

5
Ray
iT邦大神 1 級 ‧ 2022-03-10 21:31:41

同一個 IP 針對特定網站, 連續快速的執行 GET/POST 指令, 很容易被偵測到, 然後擋掉...
要嘛, 你就放慢速度, 慢到好像是真人在瀏覽那樣慢;
要嘛, 你就不停換IP, 每發一個 GET/POST 就換一個新 IP...

不過, 比較高階的防禦端, 仍然有辦法偵測到上面行為, 把你揪出來...
爬蟲是非常不受網站歡迎的行為, 具備防禦能力的網站都會設法擋掉....
你就慢慢跟防禦設備來鬥智吧...若能想出辦法, 說不定還可以賣錢....

正規做法應該是透過網站允許的 API 或者公開的 Open Data 取得資料:
https://www.google.com/search?q=%E5%8F%B0%E9%9B%BB+open+data

0
troy801125
iT邦新手 5 級 ‧ 2022-03-15 13:55:08

透過 proxy 訪問試試
#firefox_proxies.ssl_proxy = '117.26.231.79:7082'
#firefox_proxies.add_to_capabilities(firefox_capabilities)
自己多準備幾個自己掉換一下就好了 !!
user_agent 也記得換換 !!
profile.set_preference('general.useragent.override', user_agent)

0
DennisLu
iT邦研究生 1 級 ‧ 2022-03-18 17:49:49

網站就不歡迎頻繁的爬蟲
你只能Try看看,
他到底定義短時間多久不超過幾次
或是短時間只能一次去調整頻率
不歡迎爬蟲的網站 也不會公開自己的策略
你只能試試看到對
也許哪天政策又會更嚴格
你又要重新來研究他的頻率政策改多嚴

不然就是對方有公開API,走正規的方式
API通常會說明他們的訪問政策限制

如果網管看報表 把你永ban也不是不可能

0
shaon
iT邦新手 5 級 ‧ 2022-03-23 17:06:20

If you don't want to block ip then you can TOR browser or VPN. It is a good option for you i think.

我要發表回答

立即登入回答