iT邦幫忙

2022 iThome 鐵人賽

DAY 8
0
Software Development

爬蟲基礎入門與實際應用系列 第 8

DAY8、Beautifulsoup(二)

  • 分享至 

  • xImage
  •  

本文有整理在部落格裡。
裡面還有其他奇怪的文章,有空可以來看看喔。


解析器

昨天出現的這句

soup_m1 = BeautifulSoup(html_m1.text, "html.parser")

其中的html.parser便是使用的解析器,是python內建的。
除了這個外還能用html5lib和lxml但我也沒用過,詳細優缺點可能要google下。
哪天有試了再補充上來吧


解析方法

比較常用到的是find()、find_all()和select()。

  • find()、find_all()
    兩個都是使用html的標籤進行搜尋的。
    而這兩者的差別是find()只會回傳第一個符合的結果,find_all()則會回傳所有符合的結果

  • select()
    使用CSS選擇器(CSS selectors)來進行搜尋。
    CSS之前沒有提到,主要是用來把網站上色的。
    其中會用到選擇器來指定特定範圍的HTML進行操作。
    select()便是利用這東西的語法來爬的。


例子的話看我晚點加上去或一起在專題一講吧。


上一篇
Day7、BeautifulSoup4(一),認識BS4
下一篇
DAY9、認識Json
系列文
爬蟲基礎入門與實際應用30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言