https://sports.ltn.com.tw/fifa2022/teams
想問如何python爬蟲或是google colab爬自由時報新聞網?
想爬此篇 「標題 內文 網址 時間」,謝謝!
import requests
from bs4 import BeautifulSoup
import pandas as pd
import random
url = "https://sports.ltn.com.tw/fifa2022/teams"
def getALLNews(pageurl):
res = requests.get(pageurl)
soup = BeautifulSoup(res.text, 'lxml')
#從list中找到每一個title
eachNews = soup.select('.main , .title--lg')
news_all = []
print(eachNews)
for p in eachNews:
url = p.get('href')
title = p.get('title')
time = p.select_one('.time').text
print(time, title, url)
這樣有何不對呢?煩請協助!感謝!
不要從網頁上爬,我建議從RSS開始爬,幾乎每家電子新聞報都會有RSS的設定,自由在最下方有,裡面的內容就會簡化很多,不容易遇到排版及XPATH的問題
至於怎麼爬新聞,你先要學如何分解XPATH,beautifulsoap可以很好解決這個問題,至於pandas個人真的覺得沒必要,至少我很少用在這類一頁一則新聞的爬蟲上