有前輩跟我說curl比較不會被擋,因為他比較像模拟瀏覽器去存取網站,
聽說某些網站會因為cookies而擋,requests 會自動處理 cookies,這意味著每次請求都會攜帶先前取得的 cookies。
但我想再確認一下這些觀念是否正確,想再請教一下各位
1.對於爬蟲requests 與curl 哪一個比較容易被擋?
2.主要原因是什麼?
3.哪些網站有擋的機會可以給我練習或參考?
誰說 cURL 不能帶 Cookie 的?
curl 指令如何使用 cookie
url / Docs / Protocols / HTTP Cookies
還有, 現在的防爬技術, 已經不單純只是用 Cookie 來做判別, 可以在背景加入很多偵測機器爬蟲的動態判斷, 你在爬的過程中, 只要顯露出機器人的行為特徵, 隨時都會被阻斷.
結論是: 不管用哪一種, 只要是爬蟲程式, 都有機會被擋, 端看雙方技術的高低拚場...
1.對於爬蟲requests 與curl 哪一個比較容易被擋?
爬蟲requests 與curl都一樣(對網站而言)
2.主要原因是什麼?
爬蟲requests 與curl都一樣(對網站而言)
3.哪些網站有擋的機會可以給我練習或參考?
To answer your question "Is there any way they can block CURL requests?": Yes, in fact one may detect a cURL request by reading the User-Agent header.