iT邦幫忙

2022 iThome 鐵人賽

DAY 30
1

前言:

感謝陪我一起探索 GCP BigQuery 資料倉儲的你和妳,希望這個過程大家覺得還算有趣,也希望真的有幫助大家更快手 BigQuery。

如果我們把這趟旅程用爬山比喻,我們可能只能算是爬完象山XD 但沒有關係,至少我們已經在路上了!

來回放一下我們一起走過的路:

概覽:

Day 03: BigQuery 學習地圖
Day 23: Google Cloud Platform (GCP) 上的機器學習地圖,讓你知道你有什麼選擇!

BigQuery 背景知識:

Day 01: BigQuery 是什麼?
Day 02: Database vs. Data warehouse
Day 07: BigQuery 的基本架構
Day 08: 了解BigQuery 收費模式,幫助你選擇合適的方案
Day 09: BigQuery 的四種連接方式介紹 - 如何和Bigquery溝通
Day 14: BigQuery 吃什麼Data?
Day 24: BigQuery ML: 圖解三種寫法 + 常用指令介紹
Day28: BigQuery中的三種監控方式

BigQuery 實作:

[使用模式]

Day 04: BigQuery 快速上手 - 使用BigQuery sandbox 免信用卡模式 (上)
Day 05: BigQuery 快速上手 - 使用BigQuery sandbox 免信用卡模式 (下)
Day 06: BigQuery 快速上手 - 使用一般專案模式

[連接方式]

Day 10: BigQuery 的四種連接方式 - 方法一: Console (實作)
Day 11: BigQuery 的四種連接方式 - 方法二:cloud SDK (實作)
Day 12: BigQuery 的四種連接方式 - 方法三:REST API
Day 13: BigQuery 的四種連接方式 - 方法四:Client libraries (官方建議) (實作)

[數據分析/ 機器學習]

Day 15: [數據分析實作一] Step 1: 建立 Cloud SQL instance,並上傳 CSV
Day 16: [數據分析實作一] Step 2: 從 Cloud SQL 傳資料到 Cloud storage
Day 17: [數據分析實作一] Step 3: 從 Cloud storage 傳資料到 BigQuery (使用Python client library)
Day 18: [數據分析實作一] Step 4: BigQuery 結合 Data studio 作 Dashboard

Day 25: [機器學習實作一] 在 BigQuery 中建立心臟病發作預測模型

Day 26: [數據分析實作二] 將串流資料(streaming data) 寫入 BigQuery 並建立 Real time Dashboard (上)

延伸思考: CDC (Change data capture) 和 Pub/Sub 差異?

Day 27: [數據分析實作二] 將串流資料(streaming data)寫入 BigQuery 並建立 Realtime Dashboard (下)

延伸思考: cloud composer 和 dataflow 差異?

BigQuery 優化:

Day 19: 優化你的BigQuery 查詢,提高查詢效能 (上) (實作) (可選)
Day 20: 優化你的BigQuery 查詢,提高查詢效能並節省費用 (下) (實作)
Day 21: 優化你的BigQuery 查詢,Partitioned 和 Clustered 的使用時機和限制
Day 22: 優化你的BigQuery 查詢,建立 Partitioned 和 Clustered table (實作)

下一座山頭:

Data Migration (資料遷移):

Database(On-premises) to BigQuery
SAP to BigQuery

在實際的應用場景中,我們勢必要把資料傳到 GCP BigQuery,通常會是建立雲地的Data pipeline,你會需要考慮到幾件事:

  • 資料大小
  • 資料更新的頻率
  • 資料格式
  • 資料的冷熱程度
  • 資料庫的版本是否和雲端工具相容

另外,SAP 是一個比較封閉的系統,通常我們不會直連 Database去串接,因此這裏特別列出一個項目,作法上和直連 Database 會有所不同。

BI (Business intellingence):

Data studio 權限的問題

在本系列的練習中,我們運用到了大量的 Data studio 應用。但是在實際的場景中,我們會需要分享這份報表給其他使用者去做互動式的分析,但是不太可能每次使用到的時候都要請使用者給我們 Google 帳號才去分享。

ML (Machine learning):

MLOps on GCP Vertex AI

在 [機器學習實作一] 中,將訓練完的模型存放到 Vertext AI model registry,能夠幫助我們在 GCP 上做模型的管理。下一個要思考的問題是,如何在 Vertex AI 上做推論,推論I可以分為兩種:

Batch prediction
Online prediction

Data orchestration:

Cloud Composer (GCP 版的 Airflow)

在 [數據分析實作一] 和 [數據分析實作二] 的 data pipeline 都還算單純, 但是當 data pipeline 變複雜的時候,我們需要 composer 來幫我們管理 data pipeline的 workflow。

Data governance 數據安全與治理:

對資源的權限
對資料存取的權限 Cloud DLP
對資料表 rows 與 columns 的權限
管理加密 AEAD 加密

在實際的場景中,數據安全和治理是很重要的一環,因為資料是企業寶貴的資產,這一個部分官方文件整理得很詳細,可以參考。

BigQuery 中的優化:

Bi engine

BigQuery BI Engine 是一項高速內存中分析服務。一樣是秒級別的查詢速度,而且還能節省費用,但是存在使用限制,請閱讀文件。

其中一個應用場景就是建立 materialized view,並使用聚合、過濾條件、內聯接和解除嵌套等功能來提高性能並減少處理數據量。

其他學習 BigQuery 的資源:

文件:

BigQuery 文件

影片:

Google Cloud OnBoard: 開始建構企業資料倉儲

書籍:

Data Engineering with Google Cloud Platform: A practical guide to operationalizing scalable data analytics systems on GCP

Summary:

感謝陪我一起探索 GCP BigQuery 資料倉儲的你和妳,我真的非常享受這段時間大量的輸入和輸出的過程,在我們 GCP BigQuery - 探索資料倉儲,開啟你的數位轉型之旅 這系列文章中,只能說是數位轉型的開始,但是我相信至少我們已經在路上了,有興趣一起交流的夥伴,歡迎加入我的 Linkedin 互相學習,一起成長。


上一篇
Day 29: BigQuery中的三種監控方式 - 匯出 cloud logging 並用 BigQuery 分析 (實作)
系列文
[GCP BigQuery] - 探索資料倉儲,開啟你的數位轉型之旅30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言