[Day20] Selenium入門

2024 iThome 鐵人賽

DAY 2

自我挑戰組

30天認識爬蟲系列第 20 篇

16th鐵人賽

eyeyeyeye

2024-10-06 00:42:24

364 瀏覽

分享至

今天是第二十天，來學習 Selenium吧！
Selenium是一個廣泛使用的自動化測試框架，但它也非常適合用來進行網頁爬蟲，特別是處理需要JavaScript渲染的動態網站。今天將介紹如何使用Selenium進行基本的網頁抓取。

一樣可以使用pip來安裝：

pip install selenium

此外還需要下載適合你瀏覽器的WebDriver，例如Chrome的ChromeDriver。
2. 引入庫
在你的Python程式中引入Selenium：

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager

這裡我們使用webdriver_manager來自動管理ChromeDriver的安裝。
3. 創建瀏覽器實例
接下來，創建一個Chrome瀏覽器的實例：

# 啟動Chrome瀏覽器
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()))

# 打開目標網站
driver.get('https://example.com')

獲取網頁元素
使用Selenium來抓取網頁中的元素，例如獲取標題和段落內容：

# 獲取標題
title = driver.title
print("網頁標題:", title)

# 獲取段落內容
paragraphs = driver.find_elements(By.TAG_NAME, 'p')
for para in paragraphs:
    print(para.text)