[Day22] 應用代理IP

2024 iThome 鐵人賽

DAY 2

自我挑戰組

30天認識爬蟲系列第 22 篇

16th鐵人賽

eyeyeyeye

2024-10-08 22:50:10

267 瀏覽

分享至

今天是第二十二天，我的目標是使用代理 IP 抓取網頁，增強爬蟲的穩定性和隱私性。
需要用到的工具:

Python 3
Requests
1.安裝 Requests庫，如果還沒安裝 Requests，可以使用以下命令：

pip install requests

2.獲取代理IP，有很多提供免費代理 IP 的網站，例如：

Free Proxy List
ProxyScrape
可以從這些網站獲取一組可用的代理 IP。

3.編寫使用代理的爬蟲腳本，下面是一個簡單的 Python 腳本範例，用於使用代理 IP 抓取網頁內容：

import requests
from bs4 import BeautifulSoup

url = 'YOUR_TARGET_URL'
proxies = {
    'http': 'http://YOUR_PROXY_IP:PORT',
    'https': 'http://YOUR_PROXY_IP:PORT'
}

def fetch_content(url, proxies):
    try:
        response = requests.get(url, proxies=proxies, timeout=10)
        response.raise_for_status()  # 如果請求失敗，將引發 HTTPError
        return response.content
    except requests.exceptions.RequestException as e:
        print(f'Error: {e}')
        return None

if __name__ == '__main__':
    content = fetch_content(url, proxies)
    if content:
        soup = BeautifulSoup(content, 'html.parser')
        print(soup.title.text)  # 打印頁面標題

4.執行腳本將上面的代碼保存在一個Python文件中（例如 proxy_scraper.py），然後在終端中運行：