從0開始的python之路-25

python

asd5827311 2024-10-22 03:14:13 ‧ 756 瀏覽

分享至

一、什麼是網頁爬蟲
網頁爬蟲可以把它想像成是一種網頁機器人，能夠依照特定的模式或規則，自動化擷取網頁原始碼，來進行解析取得資料，所以被大量的應用在網頁資料蒐集。

當然網頁爬蟲部一定只能使用Python來進行實作，其它像Java、C#及JavaScript等程式語言也可以，而因為Python語法簡潔及擁有許多成熟的套件與框架，所以選擇Python來開發網頁爬蟲。

Python網頁爬蟲事實上就是模擬使用者來瀏覽網頁，這時候就需要瞭解網路的基本架構，分為用戶端(Client)及伺服端(Server)。

其中，用戶端(Client)就是使用者瀏覽網頁的裝置(例：本機電腦)，當使用者點擊網頁時，也就代表請求(Request)的動作，存取該網頁連結的伺服端(Server)，而伺服端(Server)接收連結得知使用者所要看的網頁後，將內容回應(Response)給用戶端(Client)

在開發Python網頁爬蟲時，這邊有兩個重要的觀念，分別是：
請求方法(Request Method)
等待回應(Waits)
請求方法(Request Method)基本上分為四種，包含GET(查詢)、POST(新增)、PUT(修改)及DELETE(刪除)，由於Python網頁爬蟲大部分皆是查詢伺服端(Server)想要存取的網頁，所以請求方法(Request Method)都是使用GET(查詢)。

另外，等待(Wait)伺服端(Server)的回應(Response)也非常重要，由於Python網頁爬蟲執行的速度非常快，如果沒有適時的等待(Wait)，就進行擷取解析，有時就會發生爬取不到網頁原始碼的問題。