本身是一個後端的小工程師
頂多用c#寫幾隻小程式
但進到公司後老闆要求去爬亞馬遜的網站
一開始跟著網路上的教程走都很順利
但近半年來亞馬遜的反爬技術越來越強
已經不是網路上能找到辦法的程度了
先說一下目前的做法
從chrome的f12中找到需要的header
除了cookie和userAgent以外都先建立好
再來開始建立cookie
首先去各個不容易被擋的亞馬遜網頁收集cookie
分別為x-amz-captcha-1、x-amz-captcha-2、session-id、session-id-time
session-id-token、i18n-prefs、ubid-main(這個名稱在不同國家有點不同)、x-wl-uid
主要是這幾個,大概每15分鐘換一次
接著是準備很多userAgent和proxy ip
然後就開始爬了
最近遇到的問題是歐洲國家反爬得很嚴重
更換亞馬遜地址也檔的的很嚴重
一直出現503或是驗證碼
本身的知識已經不夠了
需要一位高手能提點我一下
怎麼能在亞馬遜同個ip能夠活得更久
header、cookie、useragent能幫我看看是不是做得不夠好
也希望能教我一點亞馬遜的逆向工程
我一直感覺是這塊有認證機制
抱歉上面寫得有點多
希望有高手能幫忙已經快2個禮拜沒有進度了
謝謝