iT邦幫忙

第 11 屆 iT 邦幫忙鐵人賽

DAY 5
0
Google Developers Machine Learning

ML Study Jam -機器學習系列 第 5

Day 5 Python notebooks in the cloud part 1(GCP初體驗)

How Google does Machine Learning

Python notebooks in the cloud part 1

今天來聊聊Lab: Rent-a-VM、Lab Debrief: Analyzing Data using Datalab and BigQuery這兩個實作吧。

Lab: Rent-a-VM:

此實驗最主要是要讓我們練習如何使用google這個平台進行地震資料的抓取。

  1. 首先利用無痕模式進到這次的Lab按下START LAB之後就會跳出這次實驗的憑證,這是有時效性的而且用來做其他是帳戶會被鎖起來所以還是不要亂嘗試。
    https://ithelp.ithome.com.tw/upload/images/20190916/20120289kd3hgEgd8t.jpg

  2. 點選左上角紅框找到計算引擎的圖案並且將圖片中藍色框框部分進行設定,此步驟在創造一個虛擬機器。
    https://ithelp.ithome.com.tw/upload/images/20190916/201202891cATaWld0r.jpg

  3. 創造好後使用SSH連線

    • 接著第一步就是下載git
    • 輸入 sudo apt-get install git 來安裝git,完成後就可以使用git了
      https://ithelp.ithome.com.tw/upload/images/20190916/20120289C01l8uMJOo.png

https://ithelp.ithome.com.tw/upload/images/20190916/20120289OICAkHLAW7.png

  1. 接下來利用git下載此次的教材

    • 輸入git clone https://github.com/GoogleCloudPlatform/training-data-analyst,並且切換到earthquakes的目錄下
      https://ithelp.ithome.com.tw/upload/images/20190916/20120289gsggoq480D.png
  2. 此步驟在確認檔案與安裝缺少的套件

    • 輸入 less ingest.sh去確認內部的檔案
    • 接著使用bash ingest.sh將檔案下載所需套件下來,並用head earthquakes.csv來查看資料是否被下載
    • 接著要跑python的檔案,所以必須下載一些缺少的套件,我們使用bash install_missing.sh來安裝此次實驗所需的套件。
      https://ithelp.ithome.com.tw/upload/images/20190916/20120289GlIC1um3Wf.png
      https://ithelp.ithome.com.tw/upload/images/20190916/20120289KHjCjmZDw6.png
  3. 接著利用python開啟數據轉換成圖像與網站顯示的code

    • 這邊要注意一下若是用python開啟會有問題最好是使用python3 transform.py這個指令。
    • 轉換過後可以發現目錄底下多了png、htm檔,可以直接拿來作使用。
      https://ithelp.ithome.com.tw/upload/images/20190916/20120289vQl7C4VMQa.png
      https://ithelp.ithome.com.tw/upload/images/20190916/20120289t9RiCk6c7e.png
  4. 若是希望資料放在GCP繼續做其他事的話,可以創建bucket來做儲存

    • 接著將我們要的檔案複製到bucket的地方,我們就可以在雲端上看到我們想要的資料了。
    • 並且可以利用bucket來做網站的顯示或是資料的儲存
      https://ithelp.ithome.com.tw/upload/images/20190916/20120289hM0LYGlGaM.pnghttps://ithelp.ithome.com.tw/upload/images/20190916/20120289IYO0iuUabK.pnghttps://ithelp.ithome.com.tw/upload/images/20190916/20120289IXaHRR9KzP.png
      https://ithelp.ithome.com.tw/upload/images/20190916/20120289Zk91TamMVJ.png

Lab Debrief: Analyzing Data using Datalab and BigQuery

這個實驗最主要就是要讓我們使用Datalab and BigQuery這個兩個東西來做資料的蒐集。開啟帳戶那些的這邊不在贅述。

  1. 第一步先找出我們要用的運算服務器要在哪個區域

    • 我們可以利用gcloud compute zones list來尋找,選擇離自己比較近的區域(us-east1、us-central1、asia-east1…等)
  2. 接著輸入 datalab create mydatalabvm –zone <ZONE>,這過程需要滿久的,可以先去休息一下。
    https://ithelp.ithome.com.tw/upload/images/20190916/20120289EB3euEN7ad.png

  3. 創建完成後,在終端機的最後有給你提示請你去變更Port的位置,非常的簡單把Port號改成8081就好了。
    https://ithelp.ithome.com.tw/upload/images/20190916/20120289ZB6oycKpvb.jpg

  4. Datalab創建完成,接著使用BigQuery來抓取資料,BigQuery非常人性化,只要用SQL的語法就能抓取資料了

    • 這邊我們想要看的是提前離開的航班,抵達延誤的中位數是多少?
      https://ithelp.ithome.com.tw/upload/images/20190916/20120289v1VasaIEwx.png
  5. 以上述這個例子,我們可以看到下圖的結果

    • 提早37分鐘出發的航班延誤的中位數大概是30分鐘,也可以詳細看所有資料的來源若需要限制其條件,可由此去做篩選。
    • 這個部份我們也可以加入LIMIT 10去做限制前十筆最大的條件,可以得知最大航班是從哪裡到哪裡?
      https://ithelp.ithome.com.tw/upload/images/20190916/20120289jFDNeodbkV.png
  6. 接著我們希望利用python的套件來做圖形的分析

    • 所以我們到notebook的地方可以看到有datalab/notebooks目錄,並到目錄底下創建新的notebook,接著將剛剛在BigQuery 的結果引入至python內,可以看到跟我們在BigQuery 一樣的結果。
      https://ithelp.ithome.com.tw/upload/images/20190916/201202891W9kQRtgbn.png
  7. 接著我們希望他能夠圖像化呈現那我們就必須把這些數值轉換成百分比

    • 之後我們就可以利用這張圖表來觀察航班延遲的問題了yayayaya。
      https://ithelp.ithome.com.tw/upload/images/20190916/20120289FnEko82epz.pnghttps://ithelp.ithome.com.tw/upload/images/20190916/20120289cx56BCojIT.png

上一篇
Day 4 Inclusive ML(包括於機器學習的小技巧)
下一篇
Day 6 Python notebooks in the cloud part 2(嘗試好用的API吧)
系列文
ML Study Jam -機器學習30

尚未有邦友留言

立即登入留言