iT邦幫忙

2022 iThome 鐵人賽

DAY 29
0
自我挑戰組

Python簡單應用系列 第 29

Day 29 - Python網路爬蟲part2

  • 分享至 

  • xImage
  •  

之前在做app時我們發生了一些問題,在爬蟲時,有時會非常不順利,爬到一半之後出錯,後來查資料後發現,那是因為他們可能會覺得我們是惡意再爬去資料,所以阻擋我們,我們可以將設計的爬蟲程式偽裝成瀏覽器,這方法就是在程式前加上header內容

import requests

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64)\ AppleWebKit/537.36(KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36', }

url = 'https://www.net-fashion.net/'
htmlfile = requests.get(url, headers = headers)
htmlfile.raise_for_status()
print("success")

https://ithelp.ithome.com.tw/upload/images/20221001/20151938UBVnNLw30A.jpg
可以看到跑出來success代表我偽裝瀏覽器成功,這樣在爬資料時,網頁就不會認為你在惡意攻擊


上一篇
Day 28 - Python網路爬蟲
下一篇
Day 30 - Python 30天紀錄
系列文
Python簡單應用30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言