Selenium爬蟲問題

網路爬蟲

eeieiiekeiiei 2024-12-01 17:50:32 ‧ 1641 瀏覽

分享至

在做Agoda爬蟲但不知到為什麼描述爬不出來

junelin2001 iT邦新手 5 級 ‧ 2024-12-01 23:10:37 檢舉

有程式碼或是錯誤訊息嗎？

melisa iT邦新手 5 級 ‧ 2024-12-02 15:03:36 檢舉

或許可以嘗試一下Octoparse的Agoda模版？

登入發表討論

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

1 個回答

itren789

iT邦新手 5 級 ‧ 2024-12-03 10:52:05

當使用 Selenium 進行 Agoda 網站爬蟲時，若無法正確抓取數據，可能有幾個原因。你可以根據以下幾個常見問題進行檢查和排除：

頁面動態加載
Agoda 是一個動態網站，頁面內容通常是透過 JavaScript 异步加載的。如果直接使用 Selenium 抓取頁面源代碼，可能無法抓取到完整的內容。解決這個問題的方法是：

等待元素加載完成：確保頁面上的元素已經完全加載完成再進行抓取。可以使用 WebDriverWait 來等待某些元素的可見性，例如：

python

from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

wait = WebDriverWait(driver, 10)
element = wait.until(EC.presence_of_element_located((By.XPATH, "//*[@id='element_id']")))

滾動頁面：有些內容是隨著滾動頁面才會加載的，你可以模擬滾動操作來觸發加載更多內容：

python
driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")

反爬蟲機制
Agoda 等網站可能會實施反爬蟲機制，阻止自動化腳本的訪問。例如，網站可能會檢測到你的請求來自 Selenium 等自動化工具，並封鎖你的請求。你可以嘗試以下方法來繞過反爬蟲機制：

更改 User-Agent：可以更改 Selenium 瀏覽器的 User-Agent，模擬真實的用戶行為：

python
from selenium.webdriver.chrome.options import Options

options = Options()
options.add_argument("user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36")
driver = webdriver.Chrome(options=options)

使用代理：如果網站檢測到你的 IP 地址發送了過多的請求，可能會封鎖你的 IP。這時可以使用代理來避免被封禁：

python
options.add_argument('--proxy-server=http://your_proxy_address')

模擬滑鼠操作：有些反爬蟲機制會檢查是否有滑鼠移動或點擊的行為。你可以使用 Selenium 模擬這些操作，減少被檢測到自動化的風險。

XPath 或 CSS 選擇器問題
確保你使用的 XPath 或 CSS 選擇器是正確的。Agoda 的頁面結構可能包含動態加載的元素，這可能導致靜態選擇器無法生效。

檢查 XPath 是否正確：你可以在瀏覽器的開發者工具中檢查頁面的元素，確保你的 XPath 是準確的。例如，右鍵點擊頁面元素，選擇“檢查”，然後右鍵該元素，選擇“Copy” -> “Copy XPath”。

示例 XPath：

python
element = driver.find_element(By.XPATH, "//div[@class='result-item']")

請求頭問題
有些網站會檢查請求頭，確保請求是來自正常的瀏覽器。你可以確保 Selenium 模擬的瀏覽器請求頭是完整的：

使用完整的請求頭：你可以從瀏覽器的開發者工具中獲取完整的請求頭（例如 Referer、Accept、Accept-Language 等），並將其加入到 Selenium 的請求中。

python
options.add_argument("Accept-Language: en-US,en;q=0.9")
options.add_argument("Accept-Encoding: gzip, deflate, br")

頁面結構變動
Agoda 的頁面結構可能會不定期更新，這會影響你爬取資料的方式。你可以使用開發者工具檢查頁面元素，確保你的代碼適應了最新的頁面結構。

其他建議：
瀏覽器驅動問題：確保你的 Selenium 版本與瀏覽器驅動（例如 ChromeDriver、GeckoDriver 等）匹配。
調試：可以在爬蟲中加入 driver.get_screenshot_as_file("screenshot.png")，這樣可以在爬取過程中捕捉頁面截圖，幫助你查看頁面是否正確渲染。
如果這些方法還無法解決問題，可以提供更多的代碼或錯誤訊息。