DAY 16: 征服網路數據！Python 高效數據爬取與智慧 IP 位址追蹤專案

2024 iThome 鐵人賽

DAY 16

Python

Python探索之旅：從基礎到實踐系列第 16 篇

16th鐵人賽

團隊資工之花

2024-09-30 11:30:40

623 瀏覽

分享至

在現代互聯網時代，數據就像是金礦，擁有能夠自動化提取資料的能力，能讓我們比競爭者先行一步。而 Python 的強大與靈活性，特別是其內建的 requests 模組，使得這項任務變得簡單高效。本篇將深入探討如何利用 Python 進行數據的自動化爬取，並且將這些技術應用到 IP 位址查詢的實際專案中，為你的專業技能升級加碼。

1. 數據爬取的必要性與 Python 的強大

隨著資料的爆炸性增長，數據科學家、開發者甚至商業分析師都需要一套高效的方式來抓取網站上的資料。手動複製和處理數據不僅耗時費力，還容易出錯，而 Python 的 requests 模組允許你以簡單的方式發送 HTTP 請求，從而自動化地從網路上提取你所需的資料。

Python 之所以如此受歡迎，是因為其簡潔的語法和豐富的模組庫，它可以輕鬆集成到任何自動化流程中。透過以下介紹，你將學習如何從零開始發送請求，並應用到真實世界的專案中。

2. GET 請求——網頁數據輕鬆讀取

GET 請求是一種最基礎的請求，用來從伺服器獲取資料。在 Python 中，使用 requests 模組發送 GET 請求相當簡單，且不需要過多的設定：

import requests

response = requests.get("https://jsonplaceholder.typicode.com/posts")
if response.status_code == 200:
    print(response.text)  # 取得內容
else:
    print(f"無法取得內容，狀態碼: {response.status_code}")

這段代碼發送了一個簡單的 GET 請求，並回傳網頁內容。透過這樣的方式，你可以輕鬆抓取公開網頁中的數據，進行分析或保存。

3. POST 請求——資料傳輸與互動

當你需要提交表單或發送資料到伺服器時，可以使用 POST 請求。這對於自動化填寫和提交網頁表單非常有用，甚至可以模擬登錄到網站。

payload = {'username': 'user123', 'password': 'pass456'}
response = requests.post("https://httpbin.org/post", data=payload)
print(response.json())

這裡，我們發送了一個包含帳號和密碼的 POST 請求，模擬用戶登入網站。伺服器的回應可以讓你進一步自動化登錄和後續操作。

4. 偽裝成瀏覽器——自訂 HTTP Headers

很多網站會對機器人爬蟲進行限制，這時我們需要通過自訂 HTTP headers 來偽裝成瀏覽器，以繞過這些限制。最常見的偽裝方法是修改 User-Agent。

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}
response = requests.get("https://example.com", headers=headers)
print(response.content)

這個 User-Agent 讓伺服器認為我們是使用 Chrome 瀏覽器的真實用戶，而不是爬蟲程序，這樣可以避免被阻擋。

5. 保持登入狀態——Session 和 Cookies

使用 requests.Session() 可以幫助我們保持會話狀態，例如登入後的頁面操作，它會自動保存 cookies，避免每次請求都需要重新登入。

session = requests.Session()

# 登錄
login_url = 'https://example.com/login'
payload = {'username': 'user', 'password': 'pass'}
session.post(login_url, data=payload)

# 進入受保護頁面
response = session.get('https://example.com/protected_page')
print(response.text)

通過這種方式，我們可以模擬真實的登入行為，進入受保護的頁面或進行認證操作，這在一些需要登入才能訪問的數據爬取場景非常實用。

6. 進入實際專案：IP 位址查詢

接下來，將所學技術應用到一個專案中。我們將查詢 IP 位址的詳細資訊，例如它來自哪個國家、城市、ISP 等，這可以用來分析網站訪客、偵測爬蟲來源，或其他安全性應用。

查詢 IP 的程式

def ip_lookup(ip):
    url = f"http://ip-api.com/json/{ip}"
    response = requests.get(url)
    
    if response.status_code == 200:
        data = response.json()
        if data['status'] == 'success':
            print(f"IP: {data['query']}")
            print(f"Country: {data['country']}")
            print(f"Region: {data['regionName']}")
            print(f"City: {data['city']}")
            print(f"ISP: {data['isp']}")
        else:
            print("IP 查詢失敗")
    else:
        print(f"請求失敗，狀態碼: {response.status_code}")

ip_lookup('8.8.8.8')

這段程式將請求 ip-api.com，並回傳查詢到的 IP 位址資訊，如國家、地區、城市等。這是一個相對簡單且實用的小專案，可以用於各種網絡分析或安全工具的開發中。

7. 偽裝瀏覽器發送多次請求

有時候，我們需要大量獲取數據，這可能涉及到頻繁請求。在此情況下，我們可以使用自訂 headers 和 session 保持長期的會話，並且通過多次發送請求來抓取批量數據。

8. 錯誤處理與爬蟲管理

爬取大量數據時，常會遇到連接問題或伺服器封鎖，這時候可以加入錯誤處理及延遲機制來防止爬蟲被封殺：

import time

def fetch_with_retry(url, retries=3):
    for i in range(retries):
        try:
            response = requests.get(url)
            return response
        except requests.exceptions.RequestException as e:
            print(f"請求失敗，重試次數: {i+1}/{retries}")
            time.sleep(2)  # 延遲再重試
    return None

這段程式會自動在發生錯誤時重試爬取請求，從而提高爬蟲的穩定性和耐用性。