爬蟲: 如何在同一個標籤內對 之間含特定文字的內容做排除?

網路爬蟲 beautifulsoup requests html標籤、屬性文字處理

聰明貓 2021-06-08 23:00:41 ‧ 1649 瀏覽

分享至

目前在抓取ePrice新聞裡面完整的內容

是使用BeautifulSoup和requests來抓取

在抓取時遇到一個問題，就是目標tag中，底下的內容之間是用 隔開的

舉例來說，新聞內容都放在<dd class="normal first-thread">底下
的<div class="user-comment-block">裡面

但是之間都是用 來做換行

因此沒辦法用排除特定標籤或文字的方法來對裡面的內容做處理

由於也會出現圖片註解或特定文字需要排除

圖片註解:

特定文字:

想請問有沒有方法可以將同一個標籤底下用 隔開

且含有特定文字(EX: ▲、引用來源)的內容排除?

程式碼:

import json
from bs4 import BeautifulSoup
import requests


class crawlerClass:
    def __init__(self):
        print("init")
        
    def EpriceCrawler(self, url):
        response = requests.get(url, verify=False)
        soup = BeautifulSoup(response.text, "html.parser")

        section = ""
        for tag in soup.select('dd.normal.first-thread div.user-comment-block'):
            if tag.get_text() != "":
                section += tag.get_text()
                section = section.strip()
                section += "\n\n"
        article = {'status': 0, 'content': section}
        return json.dumps(article)
        
        
if __name__ == "__main__":
    crawler = crawlerClass()
    # ==== Eprice ====
    url = "https://www.eprice.com.tw/mobile/talk/4693/5644362/1/"
    epriceJsonStr = crawler.EpriceCrawler(url)
    epriceContent = json.loads(epriceJsonStr, encoding="utf-8")
    print("status:"+str(epriceContent['status']))
    print(epriceContent['content'])

PS: 有時候執行結果會出現亂碼，可先忽略不管

登入發表討論

直播研討會

5 個回答

wrxue

iT邦好手 1 級 ‧ 2021-06-09 08:56:02

最佳解答

soup.select('dd.normal.first-thread div.user-comment-block')拿到的是整個文章了，所以你用 tag.get_text() != ""一定會True，所以要先把文章分為一行一行的，然後再去判斷


    def EpriceCrawler(self, url):
    ...
    ...
        section = ""
        excepts = ['▲', '引用來源']
        for tag in soup.select('dd.normal.first-thread div.user-comment-block'):
            # 內容分行
            contents = tag.get_text().splitlines()
            # 跌代每一行
            for line in contents:
                # 各別去判斷每一行的情況
                if line == "":
                    continue
                for e in excepts:
                    if e in line:
                        break
                else:
                    section += line
                    section = section.strip()
                    section += "\n\n"
    ...
    ...

你的想法把在成對的 tag內且符合某些條件的內容刪掉，這是不太合理的判斷方式，因為 本來就不成對，無法得知誰跟誰是一對。

回應 1
分享
檢舉

聰明貓 iT邦新手 3 級 ‧ 2021-06-09 09:50:44 檢舉

it works, thx~
你誤解我了，我的意思是把 間的內容符合條件的刪掉就好
不成對的概念我還是有啦

登入發表回應

japhenchen

iT邦超人 1 級 ‧ 2021-06-09 08:28:41

照我幫你改的那一篇＜ＢＲ＞斷行那篇，你可以再引用re.sub做特定字串代換

import re


#................. 你的程式
                section += tag.get_text(separator="\n")
                section = section.strip()
                section = re.sub(r"^\s*引用來源[:：]*.*$","",section)
                section += "\n\n"

回應 6
分享
檢舉

看更多先前的回應...收起先前的回應...

japhenchen iT邦超人 1 級 ‧ 2021-06-09 08:29:44 檢舉

用正則表達式做特定字串代換真的很好用

japhenchen iT邦超人 1 級 ‧ 2021-06-09 08:58:35 檢舉

這樣就可以

section = re.sub(r"^\s*引用來源[:：]*.*$","",section)

聰明貓 iT邦新手 3 級 ‧ 2021-06-09 09:31:59 檢舉

好像不行，我的輸出結果還是有出現

                section += tag.get_text()
                section = section.strip()
                section = re.sub(r"^\s*引用來源[:：]*.*$", "", section)
                section += "\n\n"

japhenchen iT邦超人 1 級 ‧ 2021-06-09 10:21:26 檢舉

簡化成下列試試

section = re.sub(r"\s*引用來源.*\n", "", section)

聰明貓 iT邦新手 3 級 ‧ 2021-06-09 14:16:58 檢舉

還是不行耶

japhenchen iT邦超人 1 級 ‧ 2021-06-09 14:25:07 檢舉

是我眼拙沒見到雙引號？

section = re.sub(r"\"*.*引用來源.*\"*\n*", "", section)

登入發表回應

adamusa

iT邦見習生 ‧ 2023-07-11 16:40:41

使用 CSS 和偽元素 ::before 或 ::after：您可以使用 CSS 來使用偽元素 ::before 或 ::after 隱藏標記之間的特定內容。 aa route planner

回應
分享
檢舉

登入發表回應

dylanwalker

iT邦見習生 ‧ 2024-07-08 14:22:38

在爬蟲過程中，如果你想要在同一個標籤內排除特定文字的內容，可以使用Python的BeautifulSoup paper minecraft 來處理。

回應
分享
檢舉

登入發表回應

jeffreestar

iT邦見習生 ‧ 2024-10-10 12:18:19

這樣的方式應該可以有效地排除含有特定文字的內容，並確保你的爬蟲能正常工作
that's not my neighbor

回應
分享
檢舉

登入發表回應

我要發表回答

立即登入回答

參賽組數

1064 組

團體組數

40 組

累計文章數

22210 篇

完賽人數

600 人

MongoDB Vs 相仿者：選擇 MongoDB 的理由

IT EXPLAINED |

28 分

一勞永逸的工控資安? OT Security - Changed Forever

臺灣資安大會 |

29 分

強化資安韌性，實踐數位永續

2023 數位政府高峰會 |

28 分

NTT 線上研討會：管理數位基礎架構 So Easy!

NTT Taiwan |

43 分

Radware 22-23 全球資安威脅分析報告

臺灣資安大會 |

30 分

早知道就不會破版的 CSS 設計技巧！建立「防患未然」的匠人心態

iThome鐵人賽 |

26 分

ZTNA 2.0滿足現代應用、威脅、多元工作模式的資安需求

IT EXPLAINED |

45 分

專家面對面 - MongoDB 模型設計

IT EXPLAINED |

42 分

SaaS 到底貴不貴？淺談 SaaS 如何提升企業的成本效益

Cloud Summit 臺灣雲端大會 |

24 分

強大終端設備 x 生成式 AI = 未來工作模式

IT EXPLAINED |

28 分

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# windows server linux css react vue.js

IT邦幫忙

爬蟲: 如何在同一個標籤內對<br>之間含特定文字的內容做排除?

5 個回答

我要發表回答

標記使用者