從0開始的python之路-26

python

asd5827311 2024-10-22 03:15:37 ‧ 684 瀏覽

分享至

三、網頁的基本結構
伺服端(Server)回應(Response)給使用者時，事實上是網頁原始碼，經過瀏覽器的解析後，才顯示網頁的樣子，所以，Python網頁爬蟲所擷取到的內容，也就是網頁原始碼。

網頁是由許多的標籤(Tag)與元素(Elements)組成，並且具有階層式的結構，所以Python網頁爬蟲就需要透過定位，來取得所需的元素(Elements)。

舉例來說，一個部落格貼文的標題容器(post-title-container)中，包含了標題元素(post-title)及貼文的資訊容器(post-body-container)，而貼文的資訊容器(post-body-container)中又包含了日期(published)及作者(author)元素，可以明顯的看到階層關係，網頁也就是這樣進行排列及定位，所以，如果Python網頁爬蟲要擷取「作者」元素，除了可以利用id屬性來定位外，也可以先定位第12行的貼文資訊容器(post-body-container)後，再定位其中的子節點來取得。

而Python網頁爬蟲取得元素(Elements)後，就可以利用接下來要介紹的套件及框架，爬取其中的資料，也就是去掉元素(Elements)中的HTML標籤(Tag)。