百度爬蟲

python selenium 網路爬蟲百度

熊熊工程師 2022-11-14 15:22:40 ‧ 1276 瀏覽

各位大大好，小弟最近在開發百度搜尋引擎的爬蟲，過程中使用 python + selenium 並且 proxy、useragent 之類的都有換，但每每到了按下第二頁後，就會被偵測為是機器人，開始出現一些重複的資料，或是後面幾頁直接不見等等，想問一下有沒有甚麼方向可以思考之類的

tryit iT邦研究生 3 級 ‧ 2022-11-14 15:42:25 檢舉

你有沒有降低爬蟲速度?

熊熊工程師 iT邦好手 1 級 ‧ 2022-11-14 17:57:07 檢舉

有的目前大約是 10~ 15 秒左右會進行一次請求(點擊)

小碼農米爾 iT邦高手 1 級 ‧ 2022-11-15 13:32:00 檢舉

可以試試這個 undetected_chromedriver

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

立即登入回答

參賽組數

902 組

團體組數

37 組

累計文章數

19762 篇

完賽人數

529 人

IT邦幫忙