三、網頁的基本結構
伺服端(Server)回應(Response)給使用者時,事實上是網頁原始碼,經過瀏覽器的解析後,才顯示網頁的樣子,所以,Python網頁爬蟲所擷取到的內容,也就是網頁原始碼。
網頁是由許多的標籤(Tag)與元素(Elements)組成,並且具有階層式的結構,所以Python網頁爬蟲就需要透過定位,來取得所需的元素(Elements)。
舉例來說,一個部落格貼文的標題容器(post-title-container)中,包含了標題元素(post-title)及貼文的資訊容器(post-body-container),而貼文的資訊容器(post-body-container)中又包含了日期(published)及作者(author)元素,可以明顯的看到階層關係,網頁也就是這樣進行排列及定位,所以,如果Python網頁爬蟲要擷取「作者」元素,除了可以利用id屬性來定位外,也可以先定位第12行的貼文資訊容器(post-body-container)後,再定位其中的子節點來取得。
而Python網頁爬蟲取得元素(Elements)後,就可以利用接下來要介紹的套件及框架,爬取其中的資料,也就是去掉元素(Elements)中的HTML標籤(Tag)。