iT邦幫忙

第 11 屆 iThome 鐵人賽

DAY 8
0
AI & Data

蟲王養成 - scrapy系列 第 8

DAY 08 : ppt內文爬取

  • 分享至 

  • xImage
  •  

先前發文
DAY 01 : 參賽目的與規劃
DAY 02 : python3 virtualenv 建置
DAY 03 : python3 request
DAY 04 : 使用beautifulsoup4 和lxml
DAY 05 : select 和find 抓取tag
DAY 06 : soup解析後 list取值
DAY 07 : request_header_cookie 通過網頁18限制
DAY 08 : ppt內文爬取


今日實作 : https://www.ptt.cc/bbs/Gossiping/M.1569317372.A.264.html

爬取內文 忽略留言

一樣開始觀察網頁內容 , 並找出目標和其他不需要的資料到底差在哪裡 , 下列可以發現 '※ 發信站'是所有文章內文與留言的分割點

利用checkpage來辨認該文章是否被刪除 , 如果沒有被刪除就可以爬取內文 , 抓到之後進行字串處理 , 處理的方法明天會來進行介紹應用方式

soup = BeautifulSoup(response.text,'lxml')
checkpage = soup.title.text
if '404 Not Found' in checkpage:
    pass
else:
    ppt_content = soup.select('#main-content')[0].text.split('※ 發信站')[0].replace('\n',' ')

明日介紹python 的 split , replace , strip!

唱歌唱歌!!
Vast & Hazy - 與浪之間


上一篇
DAY 07 : request_header_cookie 通過網頁18限制
下一篇
DAY 09 : 資料處理 split replace strip
系列文
蟲王養成 - scrapy30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

1 則留言

0
阿展展展
iT邦好手 1 級 ‧ 2020-02-05 06:17:32

等等.. 變.. /images/emoticon/emoticon06.gif

我要留言

立即登入留言