閒聊
昨天認識了Requests,也嘗試過發送GET、POST請求。
今天我們要來看Requests的延伸:Request-HTML。
什麼是Requests-HTML
昨天使用的Requests庫在爬蟲中不具有清洗功能,因此需要其他工具輔助。
這時候就可以使用Requests-HTML,他同時具有清洗功能和Requests的功能。
Requests-HTML
pip install requests-html
HTMLSession
。之後再對回應的物件,進行get
、post
...等操作。from requests_html import HTMLSession
session = HTMLSession #宣告HTMLSession
r = session.get('https://www.google.com.tw/?hl=zh_TW') #get請求
r = session.post('https://www.google.com.tw/?hl=zh_TW',data = {}) #post請求
資料清洗
簡單來說,「清洗」指的是把顯而易見的錯誤處理掉。
這邊會列舉幾個比較簡單的用法。
from requests_html import HTMLSession
session = HTMLSession #宣告HTMLSession
r = session.get('https://www.google.com.tw/?hl=zh_TW') #get請求
print(r.html.url) #印出網頁網址
print(r.html.links) #印出網頁內容的所有網址
print(r.text) #印出網頁內容(HTML)
print(r.html.text) #印出網頁文字內容
支援功能
Requests-HTML之所以會被廣泛使用還有一個原因,就是他支援多種不一樣的功能。
資料定位
None
。False
。False
。None
。False
。False
。None
。結語
比起昨天的requests庫有著更多內容,學習起來也更需要時間!
明天!
【Day 11】認識Pandas模組
參考資料
python爬蟲 requests-html的使用https://www.796t.com/article.php?id=168412