iT邦幫忙

2022 iThome 鐵人賽

DAY 7
0
Software Development

爬蟲基礎入門與實際應用系列 第 7

Day7、BeautifulSoup4(一),認識BS4

  • 分享至 

  • xImage
  •  

本文有整理在部落格裡。
裡面還有其他奇怪的文章,有空可以來看看喔。


昨天因為剩下十分鐘發文,所以先硬是生出了一篇selenium的基本介紹,今天我們再回過頭來講BeautifulSoup的使用。
BeautifulSoup,又名美麗的湯,就如同魯迅所說過的,吃日料要喝味噌湯,到台南要喝牛肉湯,爬蟲的話就要用美麗的湯。(誤
BeautifulSoup4我們一般簡稱BS4,是用來做網站的html架構解析,如同前面所講的,html碼是以多層標籤作為架構,也因此我們可以利用BS4這個套件來建立其專屬class BeautifulSoup底下的物件,其就包含了原網站html碼的相關結構,像是標籤的父子、兄弟關係,更可以利用其中的搜尋功能找尋標籤名稱、內容或屬性,進而定位到我們感興趣的位置。

在經過基本的pip install後,我們就可以引入bs4了。
https://ithelp.ithome.com.tw/upload/images/20220922/20152706UAEuGzKBvW.png

之後我們就能像這樣,引入網址後,利用基本request取得html源碼,再利用BS4進行基本解析,建立出soup_m1的物件,之後便可以利用BS4的函式對其定位、分析。
https://ithelp.ithome.com.tw/upload/images/20220922/20152706L0rBAzgmoz.png

今天主要為BS4的介紹跟起頭,明天將會講解BS4的搜尋功能和相關函式。


上一篇
Day6、selenium基礎介紹
下一篇
DAY8、Beautifulsoup(二)
系列文
爬蟲基礎入門與實際應用30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言