iT邦幫忙

2024 iThome 鐵人賽

DAY 2
0
自我挑戰組

30天認識爬蟲系列 第 20

[Day20] Selenium入門

  • 分享至 

  • xImage
  •  

今天是第二十天,來學習 Selenium吧!
Selenium是一個廣泛使用的自動化測試框架,但它也非常適合用來進行網頁爬蟲,特別是處理需要JavaScript渲染的動態網站。今天將介紹如何使用Selenium進行基本的網頁抓取。

一樣可以使用pip來安裝:

pip install selenium

此外還需要下載適合你瀏覽器的WebDriver,例如Chrome的ChromeDriver。
2. 引入庫
在你的Python程式中引入Selenium:

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager

這裡我們使用webdriver_manager來自動管理ChromeDriver的安裝。
3. 創建瀏覽器實例
接下來,創建一個Chrome瀏覽器的實例:

# 啟動Chrome瀏覽器
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()))

# 打開目標網站
driver.get('https://example.com')

  1. 獲取網頁元素
    使用Selenium來抓取網頁中的元素,例如獲取標題和段落內容:
# 獲取標題
title = driver.title
print("網頁標題:", title)

# 獲取段落內容
paragraphs = driver.find_elements(By.TAG_NAME, 'p')
for para in paragraphs:
    print(para.text)

  1. 關閉瀏覽器
    抓取完數據後,記得關閉瀏覽器:
    driver.quit()

總結:
Selenium是一個強大的工具,能夠自動化操作瀏覽器,適合抓取動態生成的內容。今天我們學會了如何安裝和使用Selenium進行簡單的網頁抓取。在未來可以進一步探索Selenium的高級功能,例如處理表單、點擊按鈕等,以滿足更複雜的爬蟲需求!


上一篇
[Day19] 實作:抓取新聞網站標題
下一篇
[Day21] 實作:抓取商品價格變化
系列文
30天認識爬蟲30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言