爬取-網頁段落

2023 iThome 鐵人賽

DAY 8

AI & Data

30天零基礎學習網路爬蟲系列第 8 篇

15th鐵人賽

ChenLucy

2023-09-21 09:49:12

659 瀏覽

分享至

HTML網頁是由有多個段落所組成，每個段落通常使用標籤，再進行編排，例如段落間添加適當的間距，可以提高可讀性，下面會先介紹編排段落時常用的標籤。

標籤介紹

1. ``標籤

將文本分成不同的段落，通常瀏覽器在段落之間添加一些適當的間距。

<p>這是第一個段落的文字。</p>

可以加入align屬性，來指定段落的對其方式(left、center、right)

<p align = “center”>

2. `<hr>`標籤

在網頁中建立一條水平線

<h1>標題</h1>
<hr> 
<p>段落</p>

3. ` `標籤

為換行的標籤(不是建立段落)

爬取HTML段落

步驟與爬取HTML網頁標題相同，只是這一次我們要擷取的內容是標籤，一樣也是使用THE NEWS LENS文章( https://www.thenewslens.com/features )

這邊我就直接跳到建立CSS選擇器，輸入id和Type類型，一樣選用Text類型

按下選擇器Select，選取段落文字，第一個標籤選取到後，繼續點選第二個，就會選取到所有段落了

爬取成功的資料

後面實作時會完整講解，使用Web Scraper的爬蟲過程~
大家掰掰~明天見

爬取-網頁標題

實作-爬取PChome網路商城(前言)

系列文

30天零基礎學習網路爬蟲共 30 篇

RSS系列文訂閱系列文

0 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19860 篇

完賽人數

528 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

30天零基礎學習網路爬蟲系列第 8 篇

爬取-網頁段落

標籤介紹

1. `<p>`標籤

2. `<hr>`標籤

3. `<br>`標籤

爬取HTML段落

爬取成功的資料

尚未有邦友留言

30天零基礎學習網路爬蟲系列 第 8 篇

爬取-網頁段落

標籤介紹

1. <p>標籤

2. <hr>標籤

3. <br>標籤

爬取HTML段落

爬取成功的資料

尚未有邦友留言

標記使用者

30天零基礎學習網路爬蟲系列第 8 篇

1. `<p>`標籤

2. `<hr>`標籤

3. `<br>`標籤