iT邦幫忙

2022 iThome 鐵人賽

DAY 18
1
AI & Data

Python網路爬蟲系列 第 18

Day18 –網路爬蟲PTT - 2(資料清洗)

  • 分享至 

  • xImage
  •  

昨天最後的結果看起來還是很亂對吧,我們可以用要BeautifulSoup,將我們想要的內容清理出來。可以用檢查功能選取文章,發現文章的元素都放在div.r-ent 裡面。
https://ithelp.ithome.com.tw/upload/images/20221002/201524064dRERH6bRA.pnghttps://ithelp.ithome.com.tw/upload/images/20221002/20152406B23QuV5Zb0.png
接著就延續昨天的程式碼

import requests
import bs4 

url = 'https://www.ptt.cc/bbs/Gossiping/index.html'
ptt = requests.get(url, cookies={'over18' : '1'})

data = bs4.BeautifulSoup(ptt.text, 'html.parser')
titles = data.find_all('div', class_ = 'title')
for title in titles:
    if title.a != None:
        print(title.a.string)

https://ithelp.ithome.com.tw/upload/images/20221002/201524068S9PWBKho8.png
這樣就乾淨多了!!

參考書籍:
洪錦魁 -- Python網路爬蟲:大數據擷取、清洗、儲存與分析:王者歸來 2019
林俊瑋, 林修博 --- Python:網路爬蟲與資料分析入門實戰 2018


上一篇
Day17 –網路爬蟲PTT - 1(跳過cookies)
下一篇
Day19 –網路爬蟲PTT - 3(爬下一頁)
系列文
Python網路爬蟲30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言