Day18 –網路爬蟲PTT - 2（資料清洗） - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2022 iThome 鐵人賽

DAY 18

AI & Data

Python網路爬蟲系列第 18 篇

Day18 –網路爬蟲PTT - 2（資料清洗）

14th鐵人賽

sunwww

2022-10-03 00:14:44

1010 瀏覽

分享至

昨天最後的結果看起來還是很亂對吧，我們可以用要BeautifulSoup，將我們想要的內容清理出來。可以用檢查功能選取文章，發現文章的元素都放在div.r-ent 裡面。

接著就延續昨天的程式碼

import requests
import bs4 

url = 'https://www.ptt.cc/bbs/Gossiping/index.html'
ptt = requests.get(url, cookies={'over18' : '1'})

data = bs4.BeautifulSoup(ptt.text, 'html.parser')
titles = data.find_all('div', class_ = 'title')
for title in titles:
    if title.a != None:
        print(title.a.string)

這樣就乾淨多了!!