2022 iThome 鐵人賽

DAY 27

1

AI & Data

[GCP BigQuery] - 探索資料倉儲，開啟你的數位轉型之旅系列第 27 篇

Day 27: [數據分析實作二] 將串流資料(streaming data)寫入 BigQuery 並建立 Realtime Dashboard (下)

14th鐵人賽

2022-10-11 17:40:15

1646 瀏覽

分享至

前言:

我們在這個實作要作的架構如下:

資料介紹:

因為要使用即時串流數據，GCP本身有在維護公開的串流數據集，今天使用的是 pubsub-public-data 這項專案底下的 topics/taxirides-realtime data。這是紐約的公開數據集，紀錄了及時的計程車資料，大概長下面這個樣:

進入GCP頁面，打開你的 cloud shell:

開啟會用到的API:

Pub/sub API:

gcloud services enable pubsub.googleapis.com

Dataflow API:

gcloud services enable dataflow.googleapis.com

釘選以下幾個服務，方便日後使用:

Cloud storage
BigQuery
Dataflow
Pub/Sub

建立 Cloud storage bucket:

這個是為了當 Dataflow 的暫存區使用。

gsutil mb gs://$DEVSHELL_PROJECT_ID

到 cloud storage 頁面;

可以發現剛剛生成的 bucket:

點選建立資料夾，並且命名為 tmp:

建立 BigQuery datasets/table:

打開 cloud shell，輸入以下指令:

# 建置 datasets:

bq --location=us-west1 mk taxirides

# 建置 tables:

bq --location=us-west1 mk \
--time_partitioning_field timestamp \
--schema ride_id:string,point_idx:integer,latitude:float,longitude:float,\
timestamp:timestamp,meter_reading:float,meter_increment:float,ride_status:string,\
passenger_count:integer -t taxirides.realtime

建立 Dataflow pipeline:

點選左邊面板 Dataflow:

點選依據範本建立工作:

分別輸入如下:

在 Input Pub/Sub topic 點選手動輸入主題:

這個步驟是要告訴 Dataflow 你的 Pub/Sub 資料要從哪裡來?
我們使用的是 GCP 維護的公共數據集，這是紐約的公開數據集，紀錄了及時的計程車資料。

輸入 projects/pubsub-public-data/topics/taxirides-realtime:

在 BigQuery output table 輸入 ithome-bq-test:taxirides.realtime:

這個步驟是要告訴 Dataflow，你Pub/Sub 得到的資料，最後要傳到哪裡?

在臨時位置輸入 gs://ithome-bq-test/tmp:

這個步驟是要告訴 Dataflow，處理資料時的暫存位置。

設置工作站數量，和工作站數量上限:

點選建立工作，可看到畫面如下，

成功建立後，可以看到如下的畫面:

可以看到有資料寫入:

回到 BigQuery 頁面，查詢一下資料寫入的情況:

SELECT * FROM taxirides.realtime LIMIT 10

可以看到，已經有資料寫入!

建立圖表:

點擊透過數據分析探索:

點開可以看到畫面如下:

建立圖表:

到這裡，就完成串流 streaming data 並且寫入 BigQuery 囉!

Summary:

將串流資料(streaming data)寫入 BigQuery 並建立 Realtime Dashboard 的步驟:

開啟會用到的API (Pub/sub API, Dataflow API)
建立 Cloud storage bucket
建立 BigQuery datasets/table
建立 Dataflow pipeline
回到 BigQuery，建立圖表

Reference:

Creating a Streaming Data Pipeline for a Real-Time Dashboard with Dataflow
https://www.confluent.io/learn/batch-vs-real-time-data-processing/
https://aws.amazon.com/tw/streaming-data/
https://www.confluent.io/learn/data-streaming/
Data Engineering with Google Cloud Platform

Day 26: [數據分析實作二] 將串流資料(streaming data) 寫入 BigQuery 並建立 Real time Dashboard (上)

Day28: BigQuery中的三種監控方式

系列文

[GCP BigQuery] - 探索資料倉儲，開啟你的數位轉型之旅共 30 篇

目錄

RSS系列文訂閱系列文

20 人訂閱

完整目錄

直播研討會

{{ item.subject }}

{{ item.channelVendor }} {{ item.webinarstarted }} |

{{ formatDate(item.duration) }}

直播中

尚未有邦友留言

立即登入留言

參賽組數

1064 組

團體組數

40 組

累計文章數

22199 篇

完賽人數

600 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# windows server linux css react vue.js

IT邦幫忙