iT邦幫忙

第 11 屆 iT 邦幫忙鐵人賽

DAY 28
0
Google Developers Machine Learning

「Google Machine Learning」學習筆記系列 第 28

Google Cloud Solutions II: Data and Machine Learning

今天介紹的 Qwiklabs 的任務集是 [Google Cloud Solutions II: Data and Machine Learning],現在有二個子任務在維修中,無法練習。不過沒關係,我們暫時還不會介紹到。跟昨天一樣先選幾個來介紹一下,他的子課程如下:

  • (GSP160) Exploring NCAA Data with BigQuery
  • (GSP077) TensorFlow for Poets
  • (GSP141) Creating an Object Detection Application Using TensorFlow
  • (GSP139) Creating Custom Interactive Dashboards with Bokeh and BigQuery
  • (GSP137) Running Distributed TensorFlow on Compute Engine (維修中)
  • (GSP140) Using Distributed TensorFlow with Cloud ML Engine and Cloud Datalab(維修中)
  • (GSP142) Using OpenTSDB to Monitor Time-Series Data on Cloud Platform
  • (GSP138) Scanning User-generated Content Using the Cloud Video Intelligence and Cloud Vision APIs
  • (GSP180) Introduction to Kubeflow on Google Kubernetes Engine

(GSP160) Exploring NCAA Data with BigQuery

第一個實作 (GSP160) 蠻簡單的,主要是指導你二件事:

  • 加入 BigQuery 公開資料集
  • 使用 Query editor 執行 SQL 指令

加入公用的資料集,這裡要使用的是 1996-2009年NCAA美國大學運動聯盟的籃球比賽,球隊和球員的NCAA數據集資料,有些隊伍的資料可以到 1894 年。 

首先在右側的功能表列找到 BigQuery。

這是 BigQuery 的介面,只要按 "+ ADD DATA",選擇 "Explore public datasets",就可以看到有許多公開的資料集。

我們可以在上面的搜尋框裡輸入 "ncaa basketball" ,就可以找到我們需要的資料集。

按下 "VIEW DATASET" 就會找到資料集的位置 ncaa_basketball,展開後可以看到有好幾個 Table,這次的目標是 mbb_pbp_sr 資料集,它的內容是從2013-14賽季到2017-18賽季,每屆男子籃球比賽的隊伍記分表(Team-level box scores)資料,每一行代表一場比賽中單個團隊的統計數據。

從 Details 可以看到他的 Table ID 是 bigquery-public-data.ncaa_basketball.mbb_pbp_sr。

有了 Table ID,之後就是一般的 SQL 練習,如:

SELECT
  event_type,
  COUNT(*) AS event_count
FROM `bigquery-public-data.ncaa_basketball.mbb_pbp_sr`
GROUP BY 1
ORDER BY event_count DESC;

把查詢的字串輸入到右上 Query editor 中,按 Run,就可以在下方看到查詢結果。

以上就是這個練習的簡介。所以如果你的資料集有支援 BigQuery 的話,就可以很方便的被引用。

(GSP077) TensorFlow for Poets

第二個實作 (GSP077) 這是一個模型訓練的實作練習,訓練一個簡單的分類器對花朵的圖像進行分類。

一開始先建立一個VM,並且建立防火牆讓你可以連到 TensorBoard 查看, 再來就是下載範例程式。

git clone https://github.com/googlecodelabs/tensorflow-for-poets-2

接著就開始用 GoogleNet 模型來跑訓練,因為實驗給的時間只有1小時,在這裡程式僅培訓這個網路的最後一層,比較有機會在時間內結束。訓練完後丟個雛菊(Daisy)的圖片給他,正常的話應該可以看到如下的結果(Daisy 0.99508375)。

Daisy  0.99508375
Dandelion  0.0028086917
sunflowers 0.002093148
Roses  1.37025945e-05
Tulips  6.3252025e-07

這樣就完成這個實驗了。

今天先簡單介紹其中二個子任務。

好,第28天,結束。

參考
Google Cloud Solutions II: Data and Machine Learning
BigQuery Dataset - NCAA Basketball
籃球科學化發展,進階數據大解析(五):Win Share、RPM、BPM、VORP
box scores - wiki
Going Deeper with Convolutions
googlecodelabs/tensorflow-for-poets-2


上一篇
Baseline: Data, ML, AI
下一篇
GCP Machine Learning APIs
系列文
「Google Machine Learning」學習筆記31

尚未有邦友留言

立即登入留言