什麼是KeywordSearch 1.0 爬蟲關鍵字報表工具?
是作者近期兩周實作出來的小專案,把不同關鍵字搜尋工具的api及部分爬蟲寫在nodejs App當中,讓使用者可以一鍵拿到搜尋趨勢和相似詞組推薦。此專案尚有很大擴充空間,未來在作者自己的部落格若有進一步更新,會回來附在此處:________為什麼要做KeywordSearch 1.0?
精闢有效的前導市調可以避免不符市場需求的產品出現,定期觀測關鍵字趨勢,是網路行銷或市場分析人員的日常;但網路資訊四散各地,市調人除了大量閱讀、蒐集、篩選判斷外,還要把資料整理過後呈現給團隊,這個過程非常需要耐心、想像力、判斷力、大把時間,能夠獨立做出完整市調非常不容易;因此作者和朋友想幫市調人員節省文書、搜尋時間,讓他們能專注在判斷、分析上。現在進度到哪了?Python在整個專案的角色是?
這個工具已經開發完成,現在在測試修改中,這30天文章是想把自己的開發過程完整記錄下來。現在進度是熟悉Python爬蟲、api處理,以便之後我們實作抓取Keywords數據。
本來這篇還要再說明一下NodeJS的GET/POST,但其實本專案不算有用到,所以後來決定把重心放在Python在api、selenium、爬蟲的應用。
想說也許有人是第一次接觸Python,還是快速帶過安裝方式。
做資料分析使用jupyter最快也最一勞永逸的方式,比較推薦安裝anaconda,因為他包含jupyter和其他相關套件:
到anaconda官網下載符合自己系統的最新版安裝檔,這邊以python 3.6為例:https://www.anaconda.com/download/#linux
下載完成後,打開terminal輸入:
user@ubuntu:/NodeJS/tutorial$ bash ~/Downloads/Anaconda3-5.0.1-Linux-x86_64.sh
他會開始跑安裝程序,細節可以參考官網文件第3點到第10點,這邊就不贅述~
user@ubuntu:/NodeJS/tutorial$ jupyter notebook
成功的話他會幫你跳到jupyter notebook的網頁環境上。
為了以防未來安裝的套件跟系統原本的設定相衝突,我們會使用虛擬環境來安裝新套件。
記得要依序一個一個執行這些指令:
user@ubuntu:/NodeJS/tutorial$ curl -O https://pypi.python.org/packages/d4/0c/9840c08189e030873387a73b90ada981885010dd9aea134d6de30cd24cb8/virtualenv-15.1.0.tar.gz#md5=44e19f4134906fe2d75124427dc9b716
user@ubuntu:/NodeJS/tutorial$ tar xvfz virtualenv-15.1.0.tar.gz
user@ubuntu:/NodeJS/tutorial$ cd virtualenv-15.1.0
user@ubuntu:/NodeJS/tutorial$ sudo python setup.py install
如果你是習慣直接用python3的人,可參考這篇安裝
啟動虛擬環境:
user@ubuntu:/NodeJS/tutorial$ source myVirtualenv/bin/activate
(myVirtualenv) user@ubuntu:/NodeJS/tutorial$ pip install scrapy
今天先完成安裝部分,下一篇我們就來爬取Y Combinator Blog!