iT邦幫忙

0

想問如何python爬蟲或是google colab爬自由時報新聞網?

  • 分享至 

  • xImage

https://sports.ltn.com.tw/fifa2022/teams

想問如何python爬蟲或是google colab爬自由時報新聞網?

想爬此篇 「標題 內文 網址 時間」,謝謝!

import requests
from bs4 import BeautifulSoup
import pandas as pd
import random

url = "https://sports.ltn.com.tw/fifa2022/teams"

def getALLNews(pageurl):
res = requests.get(pageurl)
soup = BeautifulSoup(res.text, 'lxml')

#從list中找到每一個title
eachNews = soup.select('.main , .title--lg')

news_all = []
print(eachNews)
for p in eachNews:
url = p.get('href')
title = p.get('title')
time = p.select_one('.time').text

print(time, title, url)


這樣有何不對呢?煩請協助!感謝!
re.Zero iT邦研究生 5 級 ‧ 2022-12-16 17:16:36 檢舉
建議你先搞定發問的內容格式……(懶的用預覽還是用手機發問?)
歪歪 iT邦新手 3 級 ‧ 2022-12-16 17:23:20 檢舉
你先排版一下吧
光是for迴圈那邊絕對掛...
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

1 個回答

1
japhenchen
iT邦超人 1 級 ‧ 2022-12-17 21:19:35

不要從網頁上爬,我建議從RSS開始爬,幾乎每家電子新聞報都會有RSS的設定,自由在最下方有,裡面的內容就會簡化很多,不容易遇到排版及XPATH的問題

至於怎麼爬新聞,你先要學如何分解XPATH,beautifulsoap可以很好解決這個問題,至於pandas個人真的覺得沒必要,至少我很少用在這類一頁一則新聞的爬蟲上

我要發表回答

立即登入回答