iT邦幫忙

2021 iThome 鐵人賽

DAY 14
1
自我挑戰組

從HTML到Python爬蟲的30天之旅系列 第 14

Day 14:專案02 - PTT C_chat版爬蟲01 | 爬蟲簡介、request和response、Requests

⚠行前通知

先前已經學過Python但想學爬蟲的人可以回來囉~ 從今天起就開始大家最期待的網頁爬蟲的單元了! 雖然比原本預計的晚了2天,但該講的依舊不會少,那麼就開始吧!

\( ^▽^ )/\( ^▽^ )/\( ^▽^ )/

What is 爬蟲?

我們一直講爬蟲爬蟲,但爬蟲到底是什麼? 我們上Google搜尋一下"爬蟲"...

恩...好像跟我想的不太一樣對吧(´・ω・`)?

我們這邊的爬蟲不是指爬蟲類,而是網頁爬蟲啦! 那什麼是網頁爬蟲呢?

網頁爬蟲(英語:web crawler),也叫網路蜘蛛(spider),是一種用來自動瀏覽全球資訊網的網路機器人。其目的一般為編纂網路索引。
網路搜尋引擎等站點通過爬蟲軟體更新自身的網站內容或其對其他網站的索引。網路爬蟲可以將自己所存取的頁面儲存下來,以便搜尋引擎事後生成索引供使用者搜尋。
--維基百科

簡單的來說,網頁爬蟲是一個機器人,可以自動化瀏覽網頁並擷取我們想要的資料。

Why 爬蟲?

可能有人會想:瀏覽網頁我也會阿,抓資料不就複製貼上就好了嗎? 幹嘛需要爬蟲呢?

少少的資料的確可以手動抓,但實務上的例子經常是非常大量的資料,我舉之後要做的專案為例:爬取PTT八卦版前10頁的作者、標題、時間、所有留言...,你想想如果要手動完成這件事是要花費多大的時間和力氣。然而爬蟲只要讓程式開始執行,你就可以去喝杯下午茶等程式自動幫你完成了! 如此比較就可以知道爬蟲真的很方便。

Who 爬蟲?

其實只要你有想要從網路上取得大量資料的需求,就可以學習爬蟲,舉幾個比較常用的領域為例:

  • 訓練機器學習模型
  • 股票分析
  • 市場分析

說了這麼多,但你還沒告訴我到底要怎麼爬蟲阿?

先別急,我們先來了解網頁到底是怎麼運作的。

網頁的運作方式

不管你是用手機還是電腦,當我們在網路上瀏覽網站時,我們就是用戶端(Client),當我們點一個網頁時,就是向存放該網頁的伺服器(Server)送出請求(Request),當伺服器接收到我們的請求後,就會回傳網頁的內容回來,這就是回應(Response)。

回應的內容就是前面學過的HTML原始碼,瀏覽器(Chrome、Edge、Firefox、IE...)取得這些原始碼後,依照HTML的標籤和CSS的屬性,渲染成我們眼前所看到的畫面。

而網頁的網址(URL)就像網路世界中的地址,告訴網路這個網頁該找哪個伺服器拿取。

所有的網頁都是這樣運作的,包括你現在正在看的IT鐵人賽!

常見的瀏覽器們:

哦! 抱歉,我放錯圖了w

聽完後還是覺得霧煞煞嗎? 其實網路運作方式就跟去餐廳點餐的流程很相似,客人當作用戶端(Client),餐廳老闆當作伺服器(Server)。

  • 當我們進到一間餐廳看著菜單,就像在瀏覽器上瀏覽眾多的網頁。
  • 接著,到櫃檯向老闆點餐,就像是看到喜歡的網頁,發出請求(Request)給伺服端(Server)想看的網頁。
  • 最後,等待老闆烹飪完成送到餐桌上,像是伺服端(Server)端將回應(Response)回傳給用戶端(Client)。

跟上面的圖還滿像的,對吧?

Requests套件

看懂上面網頁request和response的流程之後,再來就要講怎麼在程式上實作。

其實也滿簡單的,因為Python提供了很多好用的爬蟲套件,這就是我們為什麼要學Python。今天用到的是Requests套件。

Anaconda預先就載好了Requests套件,可以到這裡查詢。但如果你不是用Anaconda環境的話,就要到你的cmd上,使用pip(Python套件管理工具)把套件安裝下來。

// cmd
pip install requests

安裝完後就可以在你的程式碼中引用Requests套件了。

import requests

Requests使用get()函數取得網頁的原始碼,輸入為網頁的URL。

response = requests.get("https://www.ptt.cc/bbs/C_Chat/index.html")    # 以ptt C_Chat版為例
print(response.text)
print(response.status_code)

回傳的是一個response的物件,物件中的text就是網頁的原始碼了!

擷取結果的一小部分:

另外,status_code表示網頁的回應狀態,幾種常見的狀態碼:

  • 200:一切順利,結果已經回傳。
  • 301:伺服器將使用者重新定向(re-direct)到另一個位址,當網站更換網域名稱或更改 Routes 時可能會發生。
  • 400:錯誤的語法請求。
  • 401:未通過伺服器的身份驗證,當請求沒有一併發送正確憑證時會發生。
  • 403:伺服器已經理解請求,但是拒絕執行它,意即與請求一併發送的憑證無效。
  • 404:找不到目標。

更多狀態碼:MDN - HTTP 狀態碼

建議在爬蟲時都把status_code印出來看一下,在出錯時比較容易Debug。

小結

今天是爬蟲單元的第一天,首先對爬蟲有個基本的認識,然後釐清了網頁request和response的運作方式,最後使用Python的Requests套件抓取網頁的原始碼下來。

聽完後有沒有對網路的世界大大改觀了呢XD,我當初知道網路的運作方式後,也是非常的驚訝,原來我們平常在瀏覽網頁時,電腦背後都在幫我們做這些事! 以後在逛網站的時候,不妨也觀察一下電腦到底做了哪些事哦~

明天要來講Python的網頁解析套件 -- BeautifulSoup,敬請期待~


如果喜歡這系列文章麻煩幫我按Like加訂閱,你的支持是我創作最大的動力~

本系列文章以及範例程式碼都同步更新在GitHub上,後續會持續的更新,如果喜歡也麻煩幫我按個星星吧~

有任何問題或建議,都歡迎在底下留言區提出,還請大家多多指教。


上一篇
Day 13:Python基本介紹06 | 函數、讀寫檔案、引用
下一篇
Day 15:專案02 - PTT C_Chat版爬蟲02 | BeautifulSoup
系列文
從HTML到Python爬蟲的30天之旅30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言