今天是第二十二天,我的目標是使用代理 IP 抓取網頁,增強爬蟲的穩定性和隱私性。
需要用到的工具:
pip install requests
2.獲取代理IP,有很多提供免費代理 IP 的網站,例如:
3.編寫使用代理的爬蟲腳本,下面是一個簡單的 Python 腳本範例,用於使用代理 IP 抓取網頁內容:
import requests
from bs4 import BeautifulSoup
url = 'YOUR_TARGET_URL'
proxies = {
'http': 'http://YOUR_PROXY_IP:PORT',
'https': 'http://YOUR_PROXY_IP:PORT'
}
def fetch_content(url, proxies):
try:
response = requests.get(url, proxies=proxies, timeout=10)
response.raise_for_status() # 如果請求失敗,將引發 HTTPError
return response.content
except requests.exceptions.RequestException as e:
print(f'Error: {e}')
return None
if __name__ == '__main__':
content = fetch_content(url, proxies)
if content:
soup = BeautifulSoup(content, 'html.parser')
print(soup.title.text) # 打印頁面標題
4.執行腳本 將上面的代碼保存在一個Python文件中(例如 proxy_scraper.py),然後在終端中運行:
python proxy_scraper.py
5.驗證代理是否有效,如果代理 IP 不可用,檢查代理列表,並更換為其他可用的代理 IP,我們可以使用代理檢查網站來確認代理是否工作正常。