如果只是要爬蟲的話有個基本概念就行。
HTML是一種標記式語言。主要的用途是遊覽器知道網頁的架構。
然後對,他不算是一種程式語言。
HTML主要由一系列的元素(elements)組成,
而元素包含了標籤(tags)與內容(content)。
元素還可以擁有屬性(attribute)
例如昨天的範例出現的這個:
<span class="sticky_text">置頂</span>
其中的<span>
便是標籤,這個標籤的範圍會到</span>
為止。置頂
便是他的內容。
而sticky_text
就是他的屬性了。
元素中也可以包含元素,類似這樣:
<a class="news_title" nid="25868" title="查看公告內容">
<span class="sticky_text">置頂</span>
【生涯/升學訊息】9月17日 9:00 醫藥衛生學群講座- 醫學系介紹及準備之道
</a>
這就是所謂的巢狀元素
<html></html>
通常被叫做根元素,裡面包含了所有的東西。<head></head>
通常拿來放些標題和字體之類的重要資訊。<body></body>
來放要出現在使用者前的內容。