2019 iT 邦幫忙鐵人賽

DAY 14

自我挑戰組

大四資工人生，快畢業了，然後呢系列第 14 篇

#資工人生─Day14-HTML 的構成

2019鐵人賽

飛飛

團隊Meow_Meow

2018-10-29 22:59:15

1606 瀏覽

分享至

HTML 的構成

做爬蟲最基本的就是要了解網頁是怎麼運作的

我們平常看到的網站都是經由一個叫HTML 標示語言所組成

那我們今天來看看這程式碼都長什麼樣子

首先先右鍵然後點選檢視原始碼

這就是html 的程式碼

瀏覽器就是拿到這些資訊來轉換成我們原本看的到的網頁
而做網頁爬蟲我們會取得的東西是程式碼而非我們看到的網頁

假如我們今天想看這篇狂新聞文章

在程式碼裡面長這樣

裡面有連到這網頁的網址等資訊

再來我們來說這些程式碼到底在做些什麼
畢竟假如你不知道這程式碼再做神麼也不能寫爬蟲
所以當然從最基本的講起

html 是很多個標籤(tag)做成的
通常是用<開頭> 用</結尾> 但有些不會有結尾

<p>這個tag是拿來打字的
而我們可以在開頭加上他的屬性
class是為了方便分類

<p> </p>
<p class='類別變數名稱'> 要顯示的文字 </p>

<a>通常是放超連結

<a> </a>
<a href='網頁連結'> 文字 </a>

<img>通常是來放圖片圖片位子放在src屬性底下
注意他可以沒有結尾</img>

<img src='網址'>

所以我們就可以知道這串程式碼是代表
這串文字會連上另一個網頁

<a href="/bbs/joke/M.1500811727.A.144.html">[ＸＤ] 【0723】卡提諾狂新聞 #075 期</a>

#資工人生─Day13-作業系統

#資工人生─Day15-選擇碩班vs直接工作

系列文

大四資工人生，快畢業了，然後呢共 31 篇

RSS系列文訂閱系列文

50 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19860 篇

完賽人數

528 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

大四資工人生，快畢業了，然後呢系列 第 14 篇

#資工人生─Day14-HTML 的構成

HTML 的構成

尚未有邦友留言

標記使用者

大四資工人生，快畢業了，然後呢系列第 14 篇