iT邦幫忙

2023 iThome 鐵人賽

DAY 8
0
AI & Data

30天零基礎學習網路爬蟲系列 第 8

爬取-網頁段落

  • 分享至 

  • xImage
  •  

HTML網頁是由有多個段落所組成,每個段落通常使用<p>標籤,再進行編排,例如段落間添加適當的間距,可以提高可讀性,下面會先介紹編排段落時常用的標籤。

標籤介紹

1. <p>標籤

  • 將文本分成不同的段落,通常瀏覽器在段落之間添加一些適當的間距。
<p>這是第一個段落的文字。</p>
  • 可以加入align屬性,來指定段落的對其方式(left、center、right)
<p align = “center”>

2. <hr>標籤

  • 在網頁中建立一條水平線
<h1>標題</h1>
<hr> 
<p>段落</p>

3. <br>標籤

  • 為換行的標籤(不是建立段落)

爬取HTML段落

步驟與爬取HTML網頁標題相同,只是這一次我們要擷取的內容是<p>標籤,一樣也是使用THE NEWS LENS文章( https://www.thenewslens.com/features )

這邊我就直接跳到建立CSS選擇器,輸入id和Type類型,一樣選用Text類型
https://ithelp.ithome.com.tw/upload/images/20230918/201617760GGrIVYvr5.png

按下選擇器Select,選取段落文字,第一個<p>標籤選取到後,繼續點選第二個,就會選取到所有段落了
https://ithelp.ithome.com.tw/upload/images/20230918/20161776zQ5er9mM7W.jpg

爬取成功的資料

https://ithelp.ithome.com.tw/upload/images/20230918/201617763xlzVT4FjU.png


後面實作時會完整講解,使用Web Scraper的爬蟲過程~
大家掰掰~明天見/images/emoticon/emoticon29.gif


上一篇
爬取-網頁標題
下一篇
實作-爬取PChome網路商城(前言)
系列文
30天零基礎學習網路爬蟲30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言