DAY 08 : ppt內文爬取

第 11 屆 iThome 鐵人賽

DAY 8

AI & Data

蟲王養成 - scrapy系列第 8 篇

11th鐵人賽

kevin8701111

團隊NUTC_IMAC_GREEN

2019-09-24 23:15:34

1671 瀏覽

分享至

先前發文
DAY 01 : 參賽目的與規劃
 DAY 02 : python3 virtualenv 建置
 DAY 03 : python3 request
DAY 04 : 使用beautifulsoup4 和lxml
DAY 05 : select 和find 抓取tag
DAY 06 : soup解析後 list取值
 DAY 07 : request_header_cookie 通過網頁18限制
DAY 08 : ppt內文爬取

今日實作 : https://www.ptt.cc/bbs/Gossiping/M.1569317372.A.264.html

爬取內文忽略留言

一樣開始觀察網頁內容 , 並找出目標和其他不需要的資料到底差在哪裡 , 下列可以發現 '※ 發信站'是所有文章內文與留言的分割點

利用checkpage來辨認該文章是否被刪除 , 如果沒有被刪除就可以爬取內文 , 抓到之後進行字串處理 , 處理的方法明天會來進行介紹應用方式

soup = BeautifulSoup(response.text,'lxml')
checkpage = soup.title.text
if '404 Not Found' in checkpage:
    pass
else:
    ppt_content = soup.select('#main-content')[0].text.split('※ 發信站')[0].replace('\n',' ')

明日介紹python 的 split , replace , strip！

唱歌唱歌！！
Vast & Hazy - 與浪之間

DAY 07 : request_header_cookie 通過網頁18限制

DAY 09 : 資料處理 split replace strip

系列文

蟲王養成 - scrapy 共 30 篇

RSS系列文訂閱系列文

27 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

1 則留言

阿展展展

iT邦好手 1 級 ‧ 2020-02-05 06:17:32

等等.. 變..

回應
檢舉

登入發表回應

我要留言

立即登入留言

蟲王養成 - scrapy系列 第 8 篇

DAY 08 : ppt內文爬取

1 則留言

我要留言

標記使用者

蟲王養成 - scrapy系列第 8 篇