iT邦幫忙

2018 iT 邦幫忙鐵人賽
DAY 10
0
Software Development

[行銷也要自動化] 用 Python Selenium + NodeJS + Amazon EC2 打造簡易關鍵字搜尋報表應用!系列 第 11

Day10:無規律的動態載入網頁爬蟲神器—selenium 介紹及安裝|Kearch 1.0 爬蟲關鍵字報表工具

Selenium是什麼,優缺點?

它原先是用來測試網站使用,模擬用戶在瀏覽器的行為。優點是爬蟲的時候模擬自己的操作寫成一段script能節省非常多時間,缺點是每啟動一個webdriver都會吃掉不少記憶體,如果連續開很多個沒有清除掉,很容易影響電腦效能。

安裝Selenium、ChromeDriver

  1. 更新一下確保目前安裝的東西到最新版:
user@ubuntu:~$ sudo apt-get update
user@ubuntu:~$ sudo apt-get install -y unzip openjdk-8-jre-headless xvfb libxi6 libgconf-2-4
  1. 安裝2.32版的ChromeDriver

取得安裝檔

user@ubuntu:~$ sudo wget -N http://chromedriver.storage.googleapis.com/2.32/chromedriver_linux64.zip -P ~/

解壓縮

user@ubuntu:~$ unzip ~/chromedriver_linux64.zip -d ~/

刪掉原本的安裝檔

user@ubuntu:~$ sudo rm ~/chromedriver_linux64.zip

移動資料夾到 /usr/local/bin/底下

user@ubuntu:~$ sudo mv -f ~/chromedriver /usr/local/bin/chromedriver

設定root

user@ubuntu:~$ sudo chown root:root /usr/local/bin/chromedriver

設定權限

user@ubuntu:~$ sudo chmod 0755 /usr/local/bin/chromedriver
  1. 安裝selenium server standalone
user@ubuntu:~$ sudo wget -N https://selenium-release.storage.googleapis.com/3.4/selenium-server-standalone-3.4.0.jar -P ~/
user@ubuntu:~$ sudo mv -f ~/selenium-server-standalone-3.4.0.jar /usr/local/bin/selenium-server-standalone.jar
user@ubuntu:~$ sudo chown root:root /usr/local/bin/selenium-server-standalone.jar
user@ubuntu:~$ sudo chmod 0755 /usr/local/bin/selenium-server-standalone.jar

*如果你的電腦原本沒有內建Chrome,則要安裝Chrome stable:(記得這邊要進入root狀態)

user@ubuntu:~$ sudo -i
root@ip-xxx-xx-xx-xxx:~# sudo curl -sS -o - https://dl-ssl.google.com/linux/linux_signing_key.pub | apt-key add
root@ip-xxx-xx-xx-xxx:~# sudo echo "deb http://dl.google.com/linux/chrome/deb/ stable main" >> /etc/apt/sources.list.d/google-chrome.list
root@ip-xxx-xx-xx-xxx:~# sudo apt-get -y update
root@ip-xxx-xx-xx-xxx:~# sudo apt-get -y install google-chrome-stable

P.S. 最後按Ctrl+D可退出root~


上一篇
Day9:ajax動態載入網頁爬蟲|Kearch 1.0 爬蟲關鍵字報表工具
下一篇
Day11:selenium 實作網站換頁爬蟲|Kearch 1.0 爬蟲關鍵字報表工具
系列文
[行銷也要自動化] 用 Python Selenium + NodeJS + Amazon EC2 打造簡易關鍵字搜尋報表應用!14

尚未有邦友留言

立即登入留言