iT邦幫忙

2022 iThome 鐵人賽

DAY 12
1
AI & Data

Python網路爬蟲系列 第 12

Day12 – Requests函式庫

  • 分享至 

  • xImage
  •  

由於電腦中已經有python3了所以代表已經安裝好pip3了。
接下來使用pip3來安裝我們之後會用到的Requests函式庫。
https://ithelp.ithome.com.tw/upload/images/20220927/201524067yqxGUDt2G.png
https://ithelp.ithome.com.tw/upload/images/20220927/20152406u9Ngnmd2vo.png
Requests的HTTP方法:
requests.get( ):向指定資源提交請求
requests.post( ):向指定資源提交請求
requests.put( ):向指定資源提供最新內容
requests.delete( ):請求刪除指定資源
requests.head( ) :請求提供資源的標題
requests.options( ):請求提供資源可用的功能選項
其中最常用的是GET跟POST。
HTTP狀態碼:
有時我我們在瀏覽網頁時會看到網頁寫著「404找不到網頁」對吧,在爬蟲時也是一樣會遇到無法瀏覽的網頁。以下是用GET爬一個404的網頁的範例:
輸入:
https://ithelp.ithome.com.tw/upload/images/20220927/20152406TUPnDknoNP.png
輸出:
https://ithelp.ithome.com.tw/upload/images/20220927/20152406OwSnjlQK9b.png
這個[404]就是HTTP的狀態碼,如果是[200]的話就是一切正常的網頁。
更多狀態碼可以到這裡查詢:https://zh.wikipedia.org/zh-tw/HTTP状态码
Requests函式庫沒有資料清洗的功能,因此我們需要藉由其他工具來輔助清理,明天會介紹和安裝這個套件----BeautifulSoup


上一篇
Day11 – HTML基本介紹
下一篇
Day13 – BeautifulSoup函式庫
系列文
Python網路爬蟲30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言