[Day 29] 完賽統整

2024 iThome 鐵人賽

DAY 29

Python

Python大戰之網頁爬蟲系列第 28 篇

16th鐵人賽

liao07211270

2024-10-13 22:39:54

632 瀏覽

分享至

30天一晃就要過去了，我幾乎都有堅持著每天都發文，這邊先給自己掌聲鼓勵一下!!!

這30天真的過得很充實，雖然是很累沒錯啦，每天都要去學習不同的題材，每天還都要不斷的構思，
去理解並思考要怎麼把學到的東西呈現出來，做到都快要瘋掉了......

但經過這一段堅持的學習後，我真的覺得我有學習到很多課堂以外的知識，
畢竟課堂上課大多都只是為了考試，而這次的學習是真的在為了自己的知識而打拼，
真的感覺有很大的不同。

在這次學習中，我總共學習了反爬蟲技術、HTML/CSS基礎、Selenium自動化爬蟲、BeautifulSoup爬蟲工具、Scrapy大範圍爬蟲框架、
Pandas數據處理、MySQL資料庫操作、以及SQLite

我在撰寫心得的時候，這麼一看，我這一個月真的學習了好多好多東西，突然感覺挺有成就感的呢~~~

那這邊，我就挑幾個過程中最有印象的，最後的來複習一下這段時間學習的東西:

最一開始，我先學習了反爬蟲技術。反爬蟲是網站防止自動化爬蟲大量抓取數據的一系列技術措施。
網站通常會設置多種檢測方式來分辨訪問者是人類還是機器，
其中常見的手段包括IP封鎖、限制請求頻率和使用CAPTCHA驗證。
要繞過這些措施，我學會了如何模擬真實的瀏覽器行為。

在最初的操作中，我了解到如何修改HTTP請求中的標頭，使請求看起來像是由瀏覽器發出的，這
能夠有效地降低被檢測到為機器人的風險。特別是User-Agent這個欄位，
它告訴網站來訪者使用的是哪款瀏覽器。許多網站會檢查這個欄位，
如果發現是機器請求，可能會拒絕或阻止訪問。
因此，我學習了如何在網頁請求中模擬不同的瀏覽器資訊，讓請求更像是由真人發出的。

接下來，我還學到了應對IP封鎖的方法。網站如果檢測到來自同一IP的過多請求，
可能會封禁該IP。在這種情況下，我了解到可以使用代理IP來繞過封鎖，也就是通過不同的IP地址發送請求，
以避免被網站識別和封鎖。此外，調整請求的時間間隔也非常重要，
模擬隨機的等待時間，讓爬蟲行為更加接近人類的正常瀏覽行為，從而減少觸發反爬蟲機制的機會...(明日續)