做爬蟲最基本的就是要了解網頁是怎麼運作的
我們平常看到的網站都是經由一個叫HTML 標示語言所組成
那我們今天來看看這程式碼都長什麼樣子
首先先右鍵 然後點選 檢視原始碼
這就是html 的程式碼
瀏覽器就是拿到這些資訊來轉換成我們原本看的到的網頁
而做網頁爬蟲我們會取得的東西是程式碼 而非我們看到的網頁
假如我們今天想看 這篇狂新聞文章
在程式碼裡面長這樣
裡面有連到這網頁的網址等資訊
再來我們來說這些程式碼到底在做些什麼
畢竟假如你不知道這程式碼再做神麼也不能寫爬蟲
所以當然從最基本的講起
html 是很多個 標籤(tag)做成的
通常是 用<開頭> 用</結尾> 但有些不會有結尾
<p>這個tag是拿來打字的
而我們可以在開頭加上他的屬性
class是為了方便分類
<p> </p>
<p class='類別變數名稱'> 要顯示的文字 </p>
<a>通常是放超連結
<a> </a>
<a href='網頁連結'> 文字 </a>
<img>通常是來放圖片 圖片位子放在src屬性底下
注意他可以沒有結尾</img>
<img src='網址'>
所以我們就可以知道這串程式碼是代表
這串文字會連上另一個網頁
<a href="/bbs/joke/M.1500811727.A.144.html">[XD] 【0723】卡提諾狂新聞 #075 期</a>