先前發文
DAY 01 : 參賽目的與規劃
DAY 02 : python3 virtualenv 建置
DAY 03 : python3 request
DAY 04 : 使用beautifulsoup4 和lxml
DAY 05 : select 和find 抓取tag
DAY 06 : soup解析後 list取值
DAY 07 : request_header_cookie 通過網頁18限制
DAY 08 : ppt內文爬取
今日實作 : https://www.ptt.cc/bbs/Gossiping/M.1569317372.A.264.html
爬取內文 忽略留言
一樣開始觀察網頁內容 , 並找出目標和其他不需要的資料到底差在哪裡 , 下列可以發現 '※ 發信站'是所有文章內文與留言的分割點
利用checkpage來辨認該文章是否被刪除 , 如果沒有被刪除就可以爬取內文 , 抓到之後進行字串處理 , 處理的方法明天會來進行介紹應用方式
soup = BeautifulSoup(response.text,'lxml')
checkpage = soup.title.text
if '404 Not Found' in checkpage:
pass
else:
ppt_content = soup.select('#main-content')[0].text.split('※ 發信站')[0].replace('\n',' ')
明日介紹python 的 split , replace , strip!
唱歌唱歌!!
Vast & Hazy - 與浪之間