我們在瀏覽器上實際看到的畫面,其實是瀏覽器在收到 HTML
後渲染出來的結果,之後寫爬蟲時也是幾乎都會根據 HTML 來找到我們要爬取的目標,所以必須對 HTML 的結構有一定的了解。
如果想知道平常瀏覽的網頁的原始 HTML,可以在瀏覽器中依序點選「滑鼠右鍵 > 檢視網頁原始碼」,就可以看到了。
HTML
是由元素(element)所組成,其中包含了標籤(tag)和內容(content)。
<p>
和 </p>
<img/>
和 <br/>
attr-name="attr-value"
,多組定義以空格分割,例如:
<a href="https://ithelp.ithome.com.tw/" alt="iT 邦幫忙">iT 邦幫忙</a>
以上面的超連結標籤
來舉例:
<a href="https://ithelp.ithome.com.tw/" alt="iT 邦幫忙">iT 邦幫忙</a>
a
href
、alt
iT 邦幫忙
而一個完整的 HTML 結構大致上會長這樣:
<!DOCTYPE html>
<html>
<head>
<title>Page Title</title>
</head>
<body>
<h1>This is a heading</h1>
<p>This is a paragraph.</p>
<p>This is another paragraph.</p>
</body>
</html>
<!DOCTYPE html>
:宣告文件使用的 HTML 版本,一定要在文件的最上方且只能出現一次。以現在的 HTML5
版本來說,宣告這樣就好了<html></html>
:HTML 文件的根元素<head></head>
:裡面會包含描述網頁的 meta 資訊。例如 <title></title>
是網頁的標題列;<script></script>
是網頁中引用或撰寫的 javascript<body></body>
:實際呈現給使用者的內容,爬蟲通常都是要抓這個元素內的東西其他更完整的資訊可以到 w3schools 來瞭解,畢竟爬蟲只要知道怎麼定位爬取目標就好 ,就像玩線上遊戲解任務,只要知道去哪裡打幾隻怪就好,不一定需要知道每個標籤的定義。
明天開始就可以開始實際用 Python 程式來取得網頁資料了,敬請期待!