DAY2 、爬蟲流程

2022 iThome 鐵人賽

DAY 2

Software Development

爬蟲基礎入門與實際應用系列第 2 篇

14th鐵人賽

navoni1024

2022-09-17 23:59:33

657 瀏覽

分享至

昨天非常簡要的帶過爬蟲，今天來稍微帶過下。
以下是使用requests爬蟲的大略流程。

先講下常使用到的套件:

requests:如同昨天所講的，可以將整個網站的HTML抓下來。
beautifulsoup:能夠解析HTML，讓我們能通過class和id來獲得需要的資訊。
lxml.etree:能夠通過xpath，也就是一個元素在HTML架構中的絕對或相對位置來獲得需要的資訊。

首先，挑個主題

這是青島社區動物園 aka 成功高中的學校首頁。
假設我們今天要來把他第一頁的公告標題全部存下來。

先找到那個一堆公告的地方，接著打開你的網頁開發工具。

接著，定位要抓的資訊

主流瀏覽器(Edge, Firefox, Google)都是按下F12就能叫出來。

接著按一下左上角這個超好用的小箭頭，點一下你想要爬的位置。

如圖，他就能顯示這個元素在HTML的位置。

這裡可以發現文字還是沒出現，於是再點一下元素的尾部的'...'把他更展開一點。

好耶，找到了，讚。

在點了幾個公告的標題後，可以發現這些標題都在a的標籤下並擁有著名為'news_title'的class下

現在就可以理出要怎麼爬下這些公告標題了，使用requests抓下整個網頁後再用Beautifulsoup解析網頁再透過上面這行的資訊來定位出所有的標題並輸出。

最後，實作程式

接下來幾天會慢慢講到的，大概。

那如果今天是要用xpath呢?

如下圖在元素上按右鍵後也能通過開發者工具直接複製下來xpath，真是好文明。

但這樣複製下來當然是只有第一條公告的路徑就是了。

具體要怎麼寫跟與beautifulsoup的詳細區別之後會講到的，大概。

DAY1、前言

DAY3、HTML

系列文

爬蟲基礎入門與實際應用共 30 篇

RSS系列文訂閱系列文

9 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19673 篇

完賽人數

530 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

爬蟲基礎入門與實際應用系列 第 2 篇