想問如何python爬蟲或是google colab爬自由時報新聞網？ - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

0

想問如何python爬蟲或是google colab爬自由時報新聞網？

python #爬蟲 python爬蟲 google colab 新聞

star01579 2022-12-16 16:26:14 ‧ 1544 瀏覽

分享至

https://sports.ltn.com.tw/fifa2022/teams

想問如何python爬蟲或是google colab爬自由時報新聞網？

想爬此篇「標題內文網址時間」，謝謝！

import requests
from bs4 import BeautifulSoup
import pandas as pd
import random

url = "https://sports.ltn.com.tw/fifa2022/teams"

def getALLNews(pageurl):
res = requests.get(pageurl)
soup = BeautifulSoup(res.text, 'lxml')

#從list中找到每一個title
eachNews = soup.select('.main , .title--lg')

news_all = []
print(eachNews)
for p in eachNews:
url = p.get('href')
title = p.get('title')
time = p.select_one('.time').text

print(time, title, url)


這樣有何不對呢？煩請協助！感謝！

re.Zero iT邦研究生 5 級 ‧ 2022-12-16 17:16:36 檢舉

建議你先搞定發問的內容格式……(懶的用預覽還是用手機發問？)

歪歪 iT邦新手 3 級 ‧ 2022-12-16 17:23:20 檢舉

你先排版一下吧
光是for迴圈那邊絕對掛...

登入發表討論

1 個回答

1

japhenchen

iT邦超人 1 級 ‧ 2022-12-17 21:19:35

不要從網頁上爬，我建議從RSS開始爬，幾乎每家電子新聞報都會有RSS的設定，自由在最下方有，裡面的內容就會簡化很多，不容易遇到排版及XPATH的問題

至於怎麼爬新聞，你先要學如何分解XPATH，beautifulsoap可以很好解決這個問題，至於pandas個人真的覺得沒必要，至少我很少用在這類一頁一則新聞的爬蟲上

回應
分享
檢舉

登入發表回應

我要發表回答

立即登入回答

參賽組數

1064 組

團體組數

40 組

累計文章數

22202 篇

完賽人數

600 人

AI 及自動化實戰演練：系統化合規超簡單！

Cloud Summit 臺灣雲端大會 |

30 分

How to link K8s to Business 讓主管們都聽得懂

Kubernetes Summit |

26 分

入門前端測試從這裡開始！

iThome鐵人賽 |

38 分

資料守護之道，混合雲備份引領前行

Cloud Summit 臺灣雲端大會 |

29 分

Heptabase from 0 to 1

MWC |

34 分

Cloud Infrastructure Saving Engineering 雲端省錢工程

Cloud Summit 臺灣雲端大會 |

30 分

絕地重生: 面對惡意攻擊的快速恢復策略

CYBERSEC NOW |

27 分

驅動智慧採購新引擎賦能供應鏈韌性

25 分

通過混合和多雲實現醫療服務現代化轉型

2023 臺灣醫院資訊主管會議 |

26 分

銀行業導入與管理 Hashicorp Vault 之經驗分享

Kubernetes Summit |

36 分

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# windows server linux css react vue.js