iT邦幫忙

0

Python爬蟲_無法抓到正確新聞內文

  • 分享至 

  • xImage

我想從蘋果日報的要聞網頁中抓取新聞內容,
網址為 https://tw.news.appledaily.com/headline/daily/20190329/38294459/
標題、新聞刊登日期都沒問題,只有內文中的第3段 (content3)抓取的內文是錯誤的,
請教高手,我應該如何修改 content3的語法,謝謝!
我真正要抓的content3內容,如圖所示!
https://ithelp.ithome.com.tw/upload/images/20190416/20110201sRReddoqK7.jpg
程式碼如下:

import requests 
from bs4 import BeautifulSoup 
from selenium import webdriver
import re

# 讀取蘋果日報每日頭版頭條之網頁,例如 : https://tw.news.appledaily.com/headline/daily/20190325/38290504/ 
target_url = "https://tw.news.appledaily.com/headline/daily/20190329/38294459/" 

#driver = webdriver.Chrome('./chromedriver')
response = requests.get(target_url)
soup = BeautifulSoup(response.text, "lxml")

# 抓取標題
headline = soup.select('#article > div.wrapper > div > main > article > hgroup > h1')
print(headline[0].string)

# 抓取出版日期
publish_date = soup.select('#article > div.wrapper > div > main > article > hgroup > div')
print(publish_date[0].string)

# 抓取新聞內文
tag_p = soup.select("p ")

content1 = soup.select('#article > div.wrapper > div > main > article > div > div.ndArticle_contentBox > article > div > p:nth-of-type(1)')
print("content1 =", content1[0].text)
content2 = soup.select('#article > div.wrapper > div > main > article > div > div.ndArticle_contentBox > article > div > h2:nth-of-type(1)')
print("content2 =", content2[0].text)
content3 = soup.select('#article > div.wrapper > div > main > article > div > div.ndArticle_contentBox > article > div > p:nth-of-type(2)')
print("content3 =", content3[0].text)
content4 = soup.select('#article > div.wrapper > div > main > article > div > div.ndArticle_contentBox > article > div > h2:nth-of-type(2)')
print("content4 =", content4[0].text)
content5 = soup.select('#article > div.wrapper > div > main > article > div > div.ndArticle_contentBox > article > div > p:nth-of-type(3)')
print("content5 =", content5[0].text)

看更多先前的討論...收起先前的討論...
ccutmis iT邦高手 2 級 ‧ 2019-04-16 14:19:15 檢舉
蘋果新聞現在沒註冊不能看內容了 討論他們家的網頁怎麼爬會被吉嗎?
淺水員 iT邦大師 6 級 ‧ 2019-04-16 14:26:19 檢舉
滿驚訝的,竟然有新聞網站要註冊才能看。一直以為這些網站都是巴不得更多人點擊呢。而且這對SEO應該也有影響吧?
ccutmis iT邦高手 2 級 ‧ 2019-04-16 15:12:25 檢舉
丫知 我是沒註冊^^
你沒發現嗎..雅虎或Google新聞都已經移除蘋果日報了~
話說我沒註冊...也是可以看到新聞..
畢竟..蘋果日報又不是真的上鎖= =..
ccutmis iT邦高手 2 級 ‧ 2019-04-16 15:25:30 檢舉
目前的上鎖是在原本的內容區貼上狗皮膏藥而已 知道怎麼抓的就看得到 不過公開討論別講太細 等等收到政府部門邀請通知就不好了^^"
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

1 個回答

0

一般會建議你去連他們的rss會比較快。
雖然....這間也是我的拒絕往來戶。

所以不太清楚你發生的問題。

哈..他們什麼都不開~連RSS都沒有

我的問題是,按照我上面的指令,所抓取的內容如下圖中紅色框框的部分
https://ithelp.ithome.com.tw/upload/images/20190419/2011020121hAFbDw9Z.jpg
而我希望抓到的資料如下圖所示
https://ithelp.ithome.com.tw/upload/images/20190419/201102013f3oqEsDV9.jpg

我要發表回答

立即登入回答