閒聊
昨天稍微整理了我們這半個月學的東西,今天要繼續踏上學習爬蟲的路了。
之前我們爬的都是靜態網頁,今天要學的跟動態網頁有關係。
Selenium
Selenium可以進行自動化測試,來模擬使用者登錄、滾動卷軸。
pip install selenium
安裝Webdriver則是要在Python套件儲存庫PyPI(Python Package Index),輸入Selenium查詢後會看到(紅色框)。
點進去後會看到Drivers
在這裡可以選擇依照電腦的系統下載
這邊建議可以解壓縮到Python存放的位置
from selenium import webdriver
driver = webdriver.Chrome()
driver.get(url)
查找元素
driver.find_element_by_id()
driver.find_element_by_name()
driver.find_element_by_xpath()
driver.find_element_by_link_text()
driver.find_element_by_partial_link_text()
driver.find_element_by_tag_name()
driver.find_element_by_class_name()
driver.find_element_by_css_selector()
回傳元素
在回傳的時候,會是list(串列)型態。
driver.find_elements_by_id()
driver.find_elements_by_name()
driver.find_elements_by_xpath()
driver.find_elements_by_link_text()
driver.find_elements_by_partial_link_text()
driver.find_elements_by_tag_name()
driver.find_elements_by_class_name()
driver.find_elements_by_css_selector()
操作方法
element = driver.find_element_by_id('Hi')
element.sent_keys('password')
element = driver.find_element_by_id('Hi')
element.clear()
element = driver.find_element_by_id('button')
element.click()
element = driver.find_element_by_id('Hi')
element.submit()
driver.close()
driver.quit()
結語
今天初步認識了Selenium,介紹了環境跟一些基本的操作方法。
明天會更詳細的了解使用的部分!
明天!
【Day 19】動態網頁爬蟲-Selenium(2/2)
參考資料
[Python爬蟲教學]整合Python Selenium及BeautifulSoup實現動態網頁爬蟲
https://www.learncodewithmike.com/2020/05/python-selenium-scraper.html