我們在瀏覽器上實際看到的畫面,其實是瀏覽器在收到 HTML 後渲染出來的結果,之後寫爬蟲時也是幾乎都會根據 HTML 來找到我們要爬取的目標,所以必須對 HTML 的結構有一定的了解。
如果想知道平常瀏覽的網頁的原始 HTML,可以在瀏覽器中依序點選「滑鼠右鍵 > 檢視網頁原始碼」,就可以看到了。

HTML 是由元素(element)所組成,其中包含了標籤(tag)和內容(content)。
<p> 和 </p>
<img/> 和 <br/>
attr-name="attr-value",多組定義以空格分割,例如:
<a href="https://ithelp.ithome.com.tw/" alt="iT 邦幫忙">iT 邦幫忙</a>
以上面的超連結標籤來舉例:
<a href="https://ithelp.ithome.com.tw/" alt="iT 邦幫忙">iT 邦幫忙</a>
a
href、alt
iT 邦幫忙
而一個完整的 HTML 結構大致上會長這樣:
<!DOCTYPE html>
<html>
<head>
<title>Page Title</title>
</head>
<body>
<h1>This is a heading</h1>
<p>This is a paragraph.</p>
<p>This is another paragraph.</p>
</body>
</html>
<!DOCTYPE html>:宣告文件使用的 HTML 版本,一定要在文件的最上方且只能出現一次。以現在的 HTML5 版本來說,宣告這樣就好了<html></html>:HTML 文件的根元素<head></head>:裡面會包含描述網頁的 meta 資訊。例如 <title></title> 是網頁的標題列;<script></script> 是網頁中引用或撰寫的 javascript<body></body>:實際呈現給使用者的內容,爬蟲通常都是要抓這個元素內的東西其他更完整的資訊可以到 w3schools 來瞭解,畢竟爬蟲只要知道怎麼定位爬取目標就好 ,就像玩線上遊戲解任務,只要知道去哪裡打幾隻怪就好,不一定需要知道每個標籤的定義。
明天開始就可以開始實際用 Python 程式來取得網頁資料了,敬請期待!