Python 爬蟲小白發問

python入門網路爬蟲網頁爬蟲

k8177313 2023-08-21 14:52:59 ‧ 2079 瀏覽

分享至

不好意思, 我是Python小白, 我使用IDLE來寫Python, 在爬蟲 Google新聞的時候, 標題已經可以顯示，但是無法顯示網址...

import requests
from bs4 import BeautifulSoup as BS
import googletrans
from pprint import pprint

前面是LineNotify的token設定, 就不特別放上來了

url = 'https://news.google.com/topics/CAAqKggKIiRDQkFTRlFvSUwyMHZNRFZxYUdjU0JYcG9MVlJYR2dKVVZ5Z0FQAQ?hl=zh-TW&gl=TW&ceid=TW%3Azh-Hant'
tla = googletrans.Translator()
r = requests.get(url)
sp = BS(r.text,'html5lib')
lines = sp.find_all('h4', class_='gPFEn')

s = ''
for e in lines:
    title = e.get_text().strip()  # 提取標題文字
    link = 'https://news.google.com/' + e.get('href')[2:] #這裡遇到問題!!
    s += title + '\n'
    if '大稻埕' in title:
        print(title)
        title_en = tla.translate(title)
        print(title_en.text)
        print(link)
        print()
        lineNotifyMessage(token,title+'\n'+title_en.text+'\n'+link)

我隨便找了一則google新聞，如下。網址應該要是href後面的那串, 我認為code沒有寫錯，但是不知道為何無法提取這個屬性資料，有人可以協助嗎? 非常感謝!!

<a class="WwrzSb" jsname="hXwDdf" jslog="95014; 5:W251bGwsbnVsbCxudWxsLG51bGwsbnVsbCxudWxsLG51bGwsbnVsbCwiaHR0cHM6Ly90dy5uZXdzLnlhaG9vLmNvbS8lRTUlQkYlQUIlRTglQTglOEEtJUU1JThDJTk3JUU1JUI4JTgyJUU2JTlBJUI0JUU5JTlCJUE4JUU0JUJFJTg2JUU3JTlBJTg0JUU3JUFBJTgxJUU3JTg0JUI2LSVFNiVCRiU5RiVFNSU4RCU5NyVFOCVCNyVBRiVFNiVCNyVCOSVFNSU4OCVCMCVFNSVCMCU4RiVFOCU4NSVCRiVFOCU4MiU5QS0wNjMwMzQ5MjYuaHRtbCJd; track:click,vis" href="./articles/CBMizQFodHRwczovL3R3Lm5ld3MueWFob28uY29tLyVFNSVCRiVBQiVFOCVBOCU4QS0lRTUlOEMlOTclRTUlQjglODIlRTYlOUElQjQlRTklOUIlQTglRTQlQkUlODYlRTclOUElODQlRTclQUElODElRTclODQlQjYtJUU2JUJGJTlGJUU1JThEJTk3JUU4JUI3JUFGJUU2JUI3JUI5JUU1JTg4JUIwJUU1JUIwJThGJUU4JTg1JUJGJUU4JTgyJTlBLTA2MzAzNDkyNi5odG1s0gHVAWh0dHBzOi8vdHcubmV3cy55YWhvby5jb20vYW1waHRtbC8lRTUlQkYlQUIlRTglQTglOEEtJUU1JThDJTk3JUU1JUI4JTgyJUU2JTlBJUI0JUU5JTlCJUE4JUU0JUJFJTg2JUU3JTlBJTg0JUU3JUFBJTgxJUU3JTg0JUI2LSVFNiVCRiU5RiVFNSU4RCU5NyVFOCVCNyVBRiVFNiVCNyVCOSVFNSU4OCVCMCVFNSVCMCU4RiVFOCU4NSVCRiVFOCU4MiU5QS0wNjMwMzQ5MjYuaHRtbA?hl=zh-TW&amp;gl=TW&amp;ceid=TW%3Azh-Hant" target="_blank" aria-hidden="true" tabindex="-1"></a>

froce iT邦大師 1 級 ‧ 2023-08-21 15:53:38 檢舉

requests只能得到「檢視原始碼」中已有的內容，沒辦法去取得js動態產生的內容，然後google這種看似結構簡單的網頁其實做的非常安全，我也看不懂他怎麼取得內容的。

以我的功力要在這邊取內容只有selenium可以爬。
如果是要練爬蟲建議去找別的站爬。

obarisk iT邦研究生 1 級 ‧ 2023-08-22 10:19:14 檢舉

google api 付錢

登入發表討論

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

2 個回答

天黑

iT邦研究生 5 級 ‧ 2023-08-21 16:20:00

py 我不熟悉
lines = sp.find_all('h4', class_='gPFEn') // 這一行應該是針對h4 tag吧

<h4 class="gPFEn" tabindex="0" role="link" jsaction="click:kkIcoc;">			中國暫停輸入台灣芒果稱檢測到有害生物| 兩岸
</h4>

我看到的h4內容只有這樣而已，沒有包含你上面你那一串tag a的內容所以抓不到

回應
分享
檢舉

登入發表回應

kennex_x

iT邦新手 4 級 ‧ 2023-08-23 14:58:58

Dears,
以下針對你的Code進行一些修改(測試正常)
Code:

import requests
from bs4 import BeautifulSoup as BS
import googletrans
from pprint import pprint
url = 'https://news.google.com/topics/CAAqKggKIiRDQkFTRlFvSUwyMHZNRFZxYUdjU0JYcG9MVlJYR2dKVVZ5Z0FQAQ?hl=zh-TW&gl=TW&ceid=TW%3Azh-Hant'
tla = googletrans.Translator()
html = requests.get(url)
html = BS(html.text,'html5lib')
html = html.find_all("c-wiz", jsrenderer="ARwRbe")
s = ''
for i in range(len(html)):
    url = html[i].find('a', class_='WwrzSb').get("href")
    title = html[i].find('h4').text
    link = 'https://news.google.com/' + url[2:]
    s += title + '\n'
    if '大稻埕' in title:
        print(title)
        title_en = tla.translate(title)
        print(title_en.text)
        print(link)
        print()
        lineNotifyMessage(token,title+'\n'+title_en.text+'\n'+link)

你自己Code找的是<h4>標籤，標籤內並沒有href=所以你怎麼找都會報錯，
所以建議你在爬蟲的時候要先知道HTML的標籤是有階層式的關係，如果像你原本的寫法<a><h4>兩個標籤其實都是在同一個階層是會找不到你要的結果，所以你應該要先找他們兩個標籤的父標籤，在個別找你要的值。
P.S.如果標籤內有id=建議用id去找，因為id在HTML裡面通常是唯一值不可以重複。

回應
分享
檢舉

登入發表回應

我要發表回答

立即登入回答

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

ChatGPT Business & Codex 如何從零開始?

IT邦幫忙