iT邦幫忙

2023 iThome 鐵人賽

DAY 3
0
AI & Data

30天零基礎學習網路爬蟲系列 第 3

認識瀏覽器

  • 分享至 

  • xImage
  •  

為什麼要認識瀏覽器勒?因為我們在進行網路爬蟲時,第一個步驟就是需要使用瀏覽器,來瀏覽我們想要爬取的網頁,並且在網頁中選取有用的資料,再依照平常瀏覽網頁的過程,例如說進到網頁時會先逐筆的看完所有商品,再跳下一頁繼續觀看,這個過程就等於是網路爬蟲代替我們爬取資料。

HTTP通訊協定

使用HTTP通訊協定,當你輸入網址(URL)時,實際上是向Web伺服器發送HTTP Request(請求),這種請求通常是一個GET(取得資料)請求,然後伺服器會回應您的請求,並返回HTTP Response(回應)。
https://ithelp.ithome.com.tw/upload/images/20230916/201617767LQ86HaE0u.png

DOM樹狀結構

當瀏覽器接收到伺服器回應的HTML網頁後,就會將網頁內容剖析,並且建立樹狀結構(DOM),而樹狀結構是一種階層結構的標籤,每個標籤都是成對的。使用格式方法:<標籤名稱>…</標籤名稱>,結尾記得要加上/符號。

<html>
<head>
	<title>…</title>
<head>

<body>
<div>
	<h1>…</h1>
	<p>…</p>
</div>
</body>
</html>

最後,瀏覽器會根據伺服器返回的HTML和CSS內容,來呈現我們在瀏覽器中看到的網頁畫面。


圖片來源
https://hackmd.io/@cws0701/BJW6JLg5q

參考資料
https://medium.com/pierceshih/%E7%AD%86%E8%A8%98-%E4%BD%95%E8%AC%82-http-%E5%82%B3%E8%BC%B8%E5%8D%94%E5%AE%9A-1d9b5be3fd24


上一篇
什麼是網路爬蟲?
下一篇
認識HTML
系列文
30天零基礎學習網路爬蟲30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言