【Day 10】第一次資料清洗-Requests-HTML

2022 iThome 鐵人賽

DAY 10

自我挑戰組

養爬蟲的人學爬蟲系列第 10 篇

14th鐵人賽

teresawang

2022-09-23 11:25:13

2481 瀏覽

分享至

閒聊
昨天認識了Requests，也嘗試過發送GET、POST請求。
今天我們要來看Requests的延伸：Request-HTML。

什麼是Requests-HTML
昨天使用的Requests庫在爬蟲中不具有清洗功能，因此需要其他工具輔助。
這時候就可以使用Requests-HTML，他同時具有清洗功能和Requests的功能。

Requests-HTML

下載
第一步必須先在環境中安裝，可以使用以下方法。

pip install requests-html

發送請求
和Requsts不同的是，Requests-HTML在發送請求前，需要先宣告HTMLSession。之後再對回應的物件，進行get、post...等操作。

from requests_html import HTMLSession

session = HTMLSession #宣告HTMLSession
r = session.get('https://www.google.com.tw/?hl=zh_TW') #get請求

r = session.post('https://www.google.com.tw/?hl=zh_TW',data = {})  #post請求

資料清洗
簡單來說，「清洗」指的是把顯而易見的錯誤處理掉。
這邊會列舉幾個比較簡單的用法。

from requests_html import HTMLSession

session = HTMLSession #宣告HTMLSession
r = session.get('https://www.google.com.tw/?hl=zh_TW') #get請求
print(r.html.url) #印出網頁網址
print(r.html.links) #印出網頁內容的所有網址
print(r.text) #印出網頁內容（HTML）
print(r.html.text) #印出網頁文字內容

支援功能
Requests-HTML之所以會被廣泛使用還有一個原因，就是他支援多種不一樣的功能。