iT邦幫忙

2024 iThome 鐵人賽

DAY 27
0
Python

python零之旅系列 第 27

DAY27. Python爬蟲 - Hahow爬蟲

  • 分享至 

  • xImage
  •  

今天一樣以上次的影片繼續學習。
今天的內容介紹了如何利用 Python 開發網路爬蟲,
並以 Hahow 平台為範例,展示如何抓取課程相關的數據。
影片中的主題不僅涵蓋爬蟲的基本操作,
還深入討論了實務中的一些問題,並強調合法性與倫理的重要性。

影片中說明了 HTTP 請求與回應的基本流程。
爬蟲是利用 requests 這樣的 Python 套件發送 HTTP 請求到伺服器,
並取得伺服器返回的網頁內容。

接著,使用 BeautifulSoup 這個解析器來過濾並萃取出需要的數據。
影片的示範部分展示了如何使用這些工具
來抓取 Hahow 平台上的課程名稱、價格和報名人數等資訊。

在進行 Hahow 網站的爬蟲實作時,影片強調了使用者代理的重要。
每個瀏覽器在發送請求時都會帶有一個使用者代理字串,
這個字串告訴伺服器請求來自哪一種設備或瀏覽器。

影片的另一個重點是反爬蟲技術。
Hahow 這樣的網站往往有防止爬蟲的機制,
如限制請求次數、檢查請求模式等。
為了避免被封鎖,建議使用適當的延遲來減少對伺服器的壓力。

總結來說,這部影片詳細且實務地介紹了 Python 網路爬蟲的基礎知識以及實作技巧。
透過 Hahow 網站作為範例,展示了如何發送請求、解析網頁數據並處理反爬蟲機制。


上一篇
DAY26. Python 爬蟲 - PPT爬蟲
下一篇
DAY28. Python爬蟲 - Yahoo爬蟲
系列文
python零之旅30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言