iT邦幫忙

2018 iT 邦幫忙鐵人賽
DAY 7
0

什麼是KeywordSearch 1.0 爬蟲關鍵字報表工具?
是作者近期兩周實作出來的小專案,把不同關鍵字搜尋工具的api及部分爬蟲寫在nodejs App當中,讓使用者可以一鍵拿到搜尋趨勢和相似詞組推薦。此專案尚有很大擴充空間,未來在作者自己的部落格若有進一步更新,會回來附在此處:________

為什麼要做KeywordSearch 1.0?
精闢有效的前導市調可以避免不符市場需求的產品出現,定期觀測關鍵字趨勢,是網路行銷或市場分析人員的日常;但網路資訊四散各地,市調人除了大量閱讀、蒐集、篩選判斷外,還要把資料整理過後呈現給團隊,這個過程非常需要耐心、想像力、判斷力、大把時間,能夠獨立做出完整市調非常不容易;因此作者和朋友想幫市調人員節省文書、搜尋時間,讓他們能專注在判斷、分析上。

現在進度到哪了?Python在整個專案的角色是?
這個工具已經開發完成,現在在測試修改中,這30天文章是想把自己的開發過程完整記錄下來。現在進度是熟悉Python爬蟲、api處理,以便之後我們實作抓取Keywords數據。

本來這篇還要再說明一下NodeJS的GET/POST,但其實本專案不算有用到,所以後來決定把重心放在Python在api、selenium、爬蟲的應用。

想說也許有人是第一次接觸Python,還是快速帶過安裝方式。

如何安裝 Jupyter Notebook

做資料分析使用jupyter最快也最一勞永逸的方式,比較推薦安裝anaconda,因為他包含jupyter和其他相關套件:

  1. 到anaconda官網下載符合自己系統的最新版安裝檔,這邊以python 3.6為例:https://www.anaconda.com/download/#linux

  2. 下載完成後,打開terminal輸入:

user@ubuntu:/NodeJS/tutorial$ bash ~/Downloads/Anaconda3-5.0.1-Linux-x86_64.sh

他會開始跑安裝程序,細節可以參考官網文件第3點到第10點,這邊就不贅述~

  1. 最後在terminal測試一下能不能跑:
user@ubuntu:/NodeJS/tutorial$ jupyter notebook

成功的話他會幫你跳到jupyter notebook的網頁環境上。

Python Scrapy

先安裝虛擬環境

為了以防未來安裝的套件跟系統原本的設定相衝突,我們會使用虛擬環境來安裝新套件。

記得要依序一個一個執行這些指令:

user@ubuntu:/NodeJS/tutorial$ curl -O https://pypi.python.org/packages/d4/0c/9840c08189e030873387a73b90ada981885010dd9aea134d6de30cd24cb8/virtualenv-15.1.0.tar.gz#md5=44e19f4134906fe2d75124427dc9b716
user@ubuntu:/NodeJS/tutorial$ tar xvfz virtualenv-15.1.0.tar.gz
user@ubuntu:/NodeJS/tutorial$ cd virtualenv-15.1.0
user@ubuntu:/NodeJS/tutorial$ sudo python setup.py install

如果你是習慣直接用python3的人,可參考這篇安裝

啟動虛擬環境:

user@ubuntu:/NodeJS/tutorial$ source myVirtualenv/bin/activate

再在虛擬環境中安裝 Scrapy

(myVirtualenv) user@ubuntu:/NodeJS/tutorial$ pip install scrapy

今天先完成安裝部分,下一篇我們就來爬取Y Combinator Blog!


上一篇
Day5:NodeJS .ejs 模板載入json資料|KeywordSearch 1.0 爬蟲關鍵字報表工具
下一篇
Day7: 實作Python Scrapy 20行內爬取Y Combinator Blog所有文章|Kearch 1.0 爬蟲關鍵字報表工具
系列文
[行銷也要自動化] 用 Python Selenium + NodeJS + Amazon EC2 打造簡易關鍵字搜尋報表應用!14

尚未有邦友留言

立即登入留言