今天來聊聊Lab: Rent-a-VM、Lab Debrief: Analyzing Data using Datalab and BigQuery這兩個實作吧。
此實驗最主要是要讓我們練習如何使用google這個平台進行地震資料的抓取。
首先利用無痕模式進到這次的Lab按下START LAB之後就會跳出這次實驗的憑證,這是有時效性的而且用來做其他是帳戶會被鎖起來所以還是不要亂嘗試。
點選左上角紅框找到計算引擎的圖案並且將圖片中藍色框框部分進行設定,此步驟在創造一個虛擬機器。
創造好後使用SSH連線
sudo apt-get install git
來安裝git,完成後就可以使用git了接下來利用git下載此次的教材
git clone https://github.com/GoogleCloudPlatform/training-data-analyst
,並且切換到earthquakes的目錄下此步驟在確認檔案與安裝缺少的套件
less ingest.sh
去確認內部的檔案bash ingest.sh
將檔案下載所需套件下來,並用head earthquakes.csv
來查看資料是否被下載bash install_missing.sh
來安裝此次實驗所需的套件。接著利用python開啟數據轉換成圖像與網站顯示的code
python3 transform.py
這個指令。若是希望資料放在GCP繼續做其他事的話,可以創建bucket來做儲存
這個實驗最主要就是要讓我們使用Datalab and BigQuery這個兩個東西來做資料的蒐集。開啟帳戶那些的這邊不在贅述。
第一步先找出我們要用的運算服務器要在哪個區域
gcloud compute zones list
來尋找,選擇離自己比較近的區域(us-east1、us-central1、asia-east1…等)接著輸入 datalab create mydatalabvm –zone <ZONE>
,這過程需要滿久的,可以先去休息一下。
創建完成後,在終端機的最後有給你提示請你去變更Port的位置,非常的簡單把Port號改成8081就好了。
Datalab創建完成,接著使用BigQuery來抓取資料,BigQuery非常人性化,只要用SQL的語法就能抓取資料了
以上述這個例子,我們可以看到下圖的結果
LIMIT 10
去做限制前十筆最大的條件,可以得知最大航班是從哪裡到哪裡?接著我們希望利用python的套件來做圖形的分析
datalab/notebooks
目錄,並到目錄底下創建新的notebook,接著將剛剛在BigQuery 的結果引入至python內,可以看到跟我們在BigQuery 一樣的結果。接著我們希望他能夠圖像化呈現那我們就必須把這些數值轉換成百分比