由於電腦中已經有python3了所以代表已經安裝好pip3了。
接下來使用pip3來安裝我們之後會用到的Requests函式庫。
Requests的HTTP方法:
requests.get( ):向指定資源提交請求
requests.post( ):向指定資源提交請求
requests.put( ):向指定資源提供最新內容
requests.delete( ):請求刪除指定資源
requests.head( ) :請求提供資源的標題
requests.options( ):請求提供資源可用的功能選項
其中最常用的是GET跟POST。
HTTP狀態碼:
有時我我們在瀏覽網頁時會看到網頁寫著「404找不到網頁」對吧,在爬蟲時也是一樣會遇到無法瀏覽的網頁。以下是用GET爬一個404的網頁的範例:
輸入:
輸出:
這個[404]就是HTTP的狀態碼,如果是[200]的話就是一切正常的網頁。
更多狀態碼可以到這裡查詢:https://zh.wikipedia.org/zh-tw/HTTP状态码
Requests函式庫沒有資料清洗的功能,因此我們需要藉由其他工具來輔助清理,明天會介紹和安裝這個套件----BeautifulSoup