iT邦幫忙

2022 iThome 鐵人賽

DAY 3
0

如果只是要爬蟲的話有個基本概念就行。

HTML是什麼?

HTML是一種標記式語言。主要的用途是遊覽器知道網頁的架構。
然後對,他不算是一種程式語言。


HTML主要由一系列的元素(elements)組成,
而元素包含了標籤(tags)與內容(content)。
元素還可以擁有屬性(attribute)

例如昨天的範例出現的這個:

 <span class="sticky_text">置頂</span>

其中的<span>便是標籤,這個標籤的範圍會到</span>為止。
置頂便是他的內容。
sticky_text就是他的屬性了。

元素中也可以包含元素,類似這樣:

<a class="news_title" nid="25868" title="查看公告內容">
    <span class="sticky_text">置頂</span>
        【生涯/升學訊息】9月17日 9:00 醫藥衛生學群講座- 醫學系介紹及準備之道
    </a>

這就是所謂的巢狀元素


常見的元素

<html></html> 通常被叫做根元素,裡面包含了所有的東西。
<head></head> 通常拿來放些標題和字體之類的重要資訊。
<body></body> 來放要出現在使用者前的內容。


上一篇
DAY2 、爬蟲流程
下一篇
DAY4、robots.txt&header
系列文
爬蟲基礎入門與實際應用30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言