30天一晃就要過去了,我幾乎都有堅持著每天都發文,這邊先給自己掌聲鼓勵一下!!!
這30天真的過得很充實,雖然是很累沒錯啦,每天都要去學習不同的題材,每天還都要不斷的構思,
去理解並思考要怎麼把學到的東西呈現出來,做到都快要瘋掉了......
但經過這一段堅持的學習後,我真的覺得我有學習到很多課堂以外的知識,
畢竟課堂上課大多都只是為了考試,而這次的學習是真的在為了自己的知識而打拼,
真的感覺有很大的不同。
在這次學習中,我總共學習了反爬蟲技術、HTML/CSS基礎、Selenium自動化爬蟲、BeautifulSoup爬蟲工具、Scrapy大範圍爬蟲框架、
Pandas數據處理、MySQL資料庫操作、以及SQLite
我在撰寫心得的時候,這麼一看,我這一個月真的學習了好多好多東西,突然感覺挺有成就感的呢~~~
那這邊,我就挑幾個過程中最有印象的,最後的來複習一下這段時間學習的東西:
最一開始,我先學習了反爬蟲技術。反爬蟲是網站防止自動化爬蟲大量抓取數據的一系列技術措施。
網站通常會設置多種檢測方式來分辨訪問者是人類還是機器,
其中常見的手段包括IP封鎖、限制請求頻率和使用CAPTCHA驗證。
要繞過這些措施,我學會了如何模擬真實的瀏覽器行為。
在最初的操作中,我了解到如何修改HTTP請求中的標頭,使請求看起來像是由瀏覽器發出的,這
能夠有效地降低被檢測到為機器人的風險。特別是User-Agent這個欄位,
它告訴網站來訪者使用的是哪款瀏覽器。許多網站會檢查這個欄位,
如果發現是機器請求,可能會拒絕或阻止訪問。
因此,我學習了如何在網頁請求中模擬不同的瀏覽器資訊,讓請求更像是由真人發出的。
接下來,我還學到了應對IP封鎖的方法。網站如果檢測到來自同一IP的過多請求,
可能會封禁該IP。在這種情況下,我了解到可以使用代理IP來繞過封鎖,也就是通過不同的IP地址發送請求,
以避免被網站識別和封鎖。此外,調整請求的時間間隔也非常重要,
模擬隨機的等待時間,讓爬蟲行為更加接近人類的正常瀏覽行為,從而減少觸發反爬蟲機制的機會...(明日續)