iT邦幫忙

2023 iThome 鐵人賽

DAY 21
0
自我挑戰組

網路爬蟲系列 第 21

【Day21】網路爬蟲-修改HTML網頁來爬取資料

  • 分享至 

  • xImage
  •  

更改HTML標籤名稱和屬性
我們可以直接更改Tag物件的標籤名稱和屬性,也可以使用del來刪除標籤的屬性

from bs4 import BeautifulSoup 
soup= BeautifulSoup ("<b class='score'>Joe</b>", "lxml")
tag= soup.b
tag.name = "p"
tag["class"] = "question"
tag["id"] = "name"
print (tag)
del tag["class"]
print (tag)

上述程式碼使用HTML標籤字串建立 BeauifulSoup物件,在取得<b>標籤後,依序更改標籤名稱、class 屬性值和新增id 屬性,最後刪除 class 屬性,其執行結果可以看到HTML標籤已經更改。
修改HTML標籤的文字內容
我們是使用Tag物件的 string 屬性來更改標籤的文字內容

from bs4 import BeautifulSoup
soup = BeautifulSoup ("<b class='score'>Joe</b>", "lxml")
tag = soup.b
tag.string = "Mary"
print (tag)

上述程式碼在取得<b>標籤後,更改sting屬性值,其執行結果可以看到HTML標籤內容已經更改


上一篇
【Day20】網路爬蟲-走訪HTML網頁取得資料
下一篇
【Day22】網路爬蟲-將取得的資料儲存成CSV和JSON檔案
系列文
網路爬蟲30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言