python 新手抓取標題失敗

python

learn1018 2022-10-18 11:44:50 ‧ 961 瀏覽

分享至

各位高手，自學想練習取各章節的標題，我google了半天找不到相關訊息，不知道要從哪個角度去學習
再麻煩各位指導我個方向，感謝大家

程式碼:

import requests
from bs4 import BeautifulSoup
import time
from selenium import webdriver

Path = "D:\python pratice/chromedriver.exe"
driver = webdriver.Chrome(Path)
driver.get("https://www.comicabc.com/html/103.html")
soup = BeautifulSoup(driver.page_source, 'lxml') #driver.page_source =右鍵點屬性
target_url = "https://www.comicabc.com/html/103.html"

# 取鏈接和章節名
r = requests.get(url = target_url)
bs = BeautifulSoup(r.text, 'lxml')
list_con_li = bs.find('tr')
cartoon_list = list_con_li.find_all('a')
chapter_names = []
chapter_urls = []
for cartoon in cartoon_list:
    href = cartoon.get('href')
    name = cartoon.text
    chapter_names.insert(0, name)
    chapter_urls.insert(0, href)
print(cartoon_list)

之前嘗試取其他網站有成功,但這網站就不行

登入發表討論

直播研討會

{{ item.channelVendor }} {{ item.webinarstarted }} |

直播中

1 個回答

bsexp301479

iT邦新手 3 級 ‧ 2022-10-18 12:02:49

最佳解答

使用Xpath做要抓取元素的定位

links = driver.find_elements_by_xpath("//table[@id='rp_ctl00_0_dl_0']/tbody/tr/td/a")
for i in links:
    print(i.text)

第一層先抓特定id的Table
再依序往下直到你所想要的資料為止

感謝obarisk熱心回覆
這段語法應改為

links = driver.find_elements(By.XPATH,"//table[@id='rp_ctl00_0_dl_0']/tbody/tr/td/a")

且要多引用

from selenium.webdriver.common.by import By

才不會造成語法錯誤

回應 2
分享
檢舉

obarisk iT邦研究生 1 級 ‧ 2022-10-18 17:37:26 檢舉

find_elements_by_xpath 應該被標註棄用了

bsexp301479 iT邦新手 3 級 ‧ 2022-10-19 09:19:25 檢舉

obarisk感謝您的指教
沒注意到在新版中這段語法被標註棄用了

登入發表回應

我要發表回答

立即登入回答

參賽組數

1064 組

團體組數

40 組

累計文章數

22195 篇

完賽人數

600 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# windows server linux css react vue.js

IT邦幫忙

python 新手抓取標題失敗

1 個回答

我要發表回答

標記使用者