今天是第二十天,來學習 Selenium吧!
Selenium是一個廣泛使用的自動化測試框架,但它也非常適合用來進行網頁爬蟲,特別是處理需要JavaScript渲染的動態網站。今天將介紹如何使用Selenium進行基本的網頁抓取。
一樣可以使用pip來安裝:
pip install selenium
此外還需要下載適合你瀏覽器的WebDriver,例如Chrome的ChromeDriver。
2. 引入庫
在你的Python程式中引入Selenium:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
這裡我們使用webdriver_manager來自動管理ChromeDriver的安裝。
3. 創建瀏覽器實例
接下來,創建一個Chrome瀏覽器的實例:
# 啟動Chrome瀏覽器
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()))
# 打開目標網站
driver.get('https://example.com')
# 獲取標題
title = driver.title
print("網頁標題:", title)
# 獲取段落內容
paragraphs = driver.find_elements(By.TAG_NAME, 'p')
for para in paragraphs:
print(para.text)
driver.quit()
總結:
Selenium是一個強大的工具,能夠自動化操作瀏覽器,適合抓取動態生成的內容。今天我們學會了如何安裝和使用Selenium進行簡單的網頁抓取。在未來可以進一步探索Selenium的高級功能,例如處理表單、點擊按鈕等,以滿足更複雜的爬蟲需求!