1. Python大數據特訓班_爬取與分析_2.)BeautifulSoup

python3 網頁爬蟲爬蟲大數據

Zoey 2019-03-04 23:50:54 ‧ 5607 瀏覽

分享至

大家好，我是Zoey
今天是第二天發文，還有很多不足，
還請多多包涵，有錯誤可以糾正我喔!!!!
謝謝!!

BeautifulSoup:網頁解析

使用BeautifulSoup時須先安裝模組

安裝命令

pip install BeautifulSoup

其實上一章節就有用到BeautifulSoup了
BeautifulSoup的使用方法

#引入BeautifulSoup
from bs4 import BeautifulSoup
#使用BeautifulSoup解讀原始碼
BeautifulSoup 物件=BeautifulSoup(原始碼,'html.parser')

示範使用BeautifulSoup模組解讀

#引入BeautifulSoup模組
from bs4 import BeautifulSoup
#html原始碼
my_html="""
<html><head><title>天天長高</title></head>
<body><h2>數的羊都跑了</h2>
<div class="item">
    <a id="link1" href="##">Link 1</a>
    <a id="link2" href="##">Link 2</a>
</div>
</body></html>
"""
#使用BeautifulSoup作解析
sp=BeautifulSoup(my_html,'html.parser')

常用的BeautifulSoup的屬性方法

tag名稱：回傳指定tag內容

print(sp.title)

結果為天天長高

text：去除所有html標籤後回傳文字內容

print(sp.text)

結果為
天天長高
數的羊都跑了

Link 1
Link 2

find("標籤名稱")：傳回第一個符合條件的tag

print(sp.find("a"))

結果為
Link 1

find_all("標籤名稱")：回傳所有符合條件的內容
找到內容會回傳一個串列

print(sp.find_all("a"))

解果為
[Link 1, Link 2]

-find和find_all也可以尋找符合屬性的內容
find或find_all(標籤名稱,{屬性名稱:屬性內容})

print(sp.find("a",{"id":"link2"}))

結果為
Link 2

select()：回傳指定id或class
使用id時前面必加#
使用class時前面必加.
select回傳值會是串列

print(sp.select("title"))
#id使用方法
print(sp.select("#link1"))
#class使用方法
print(sp.select(".item"))

結果為
[天天長高]
[Link 1]
[
Link 1
Link 2

有多層標籤或id或類別時也可以堆疊使用

print(sp.select("html head title"))

結果為
[天天長高]

取得標籤的屬性內容
可以使用get方法或是字典的方式

回傳值.get("屬性名稱")
回傳值["屬性名稱"]

尚未有邦友留言

立即登入留言

參賽組數

1064 組

團體組數

40 組

累計文章數

22206 篇

完賽人數

600 人

雲端備份的最佳助力，Microsoft 365 維運優化大解密！【宏碁資訊網路學堂】

ＡＥＢ大補帖 |

41 分

從觀察到實踐：打造符合公司需求的GitLab DevOps流水線

Hello World Dev Conference |

38 分

【數位轉型如何強化存取安全控管零信任網路存取方案】

安碁資訊｜資安防護服務．企業營運夥伴 |

39 分

實現快速安全現代化 - 跨雲和混合式安全管理

Cloud Summit 臺灣雲端大會 |

27 分

SRE 經驗分享－在中大型企業身為 SRE 可能該完成的一些事

SRE CONFERENCE |

26 分

QTS 5.1.0：效能加乘，靈活管理，安全更提升

QNAP Systems, Inc. |

66 分

offline K8s 升級怎麼辦？跨大版升級甘苦談一次說給你聽！

Kubernetes Summit |

42 分

將漏洞扼殺於搖籃之中：利用紅隊為開發注入能量

臺灣資安大會 |

27 分

迎向未來體驗：雲遊戲、元宇宙

IT EXPLAINED |

40 分

NTT 線上研討會：管理數位基礎架構 So Easy!

NTT Taiwan |

43 分

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# windows server linux css react vue.js