本文有整理在部落格裡。
裡面還有其他奇怪的文章,有空可以來看看喔。
昨天因為剩下十分鐘發文,所以先硬是生出了一篇selenium的基本介紹,今天我們再回過頭來講BeautifulSoup的使用。
BeautifulSoup,又名美麗的湯,就如同魯迅所說過的,吃日料要喝味噌湯,到台南要喝牛肉湯,爬蟲的話就要用美麗的湯。(誤
BeautifulSoup4我們一般簡稱BS4,是用來做網站的html架構解析,如同前面所講的,html碼是以多層標籤作為架構,也因此我們可以利用BS4這個套件來建立其專屬class BeautifulSoup底下的物件,其就包含了原網站html碼的相關結構,像是標籤的父子、兄弟關係,更可以利用其中的搜尋功能找尋標籤名稱、內容或屬性,進而定位到我們感興趣的位置。
在經過基本的pip install後,我們就可以引入bs4了。
之後我們就能像這樣,引入網址後,利用基本request取得html源碼,再利用BS4進行基本解析,建立出soup_m1的物件,之後便可以利用BS4的函式對其定位、分析。
今天主要為BS4的介紹跟起頭,明天將會講解BS4的搜尋功能和相關函式。