Day 20: 優化你的BigQuery 查詢，提高查詢效能並節省費用 (下) (實作)

14th鐵人賽

xscapex

2022-10-04 12:04:14

2059 瀏覽

分享至

前言:

我們在 Day 07 曾提到，BigQuery 的基本架構可分為查詢和儲存。因此，本篇要來介紹幾個方法，不僅能夠幫助我們提升查詢的效能、降低費用，甚至還能減少故障。

為了看到查詢量的差異，我們繼續使用 bigquery-public-data.crypto_band.logs 和 bigquery-public-data.crypto_band.block_events，分別有 306,385,922 筆和 3,285,547,037 筆，因此也會有額外的費用。

大家也可以試試看把這段語法貼到 BigQuery查詢介面，體驗一下右上角顯示的查詢量，但是但是，記得不要按執行阿~ 以免被收取額外的費用!

希望大家能夠應用以下的查詢技巧到工作中，做一個聰明的使用者!

避免使用 `SELECT *`:

使用 SELECT *:

SELECT
  *
FROM
  `bigquery-public-data.crypto_band.logs`

選取特定欄位，可以發現明顯查詢量少了快 5 倍!

SELECT
  txhash, log_index
FROM
  `bigquery-public-data.crypto_band.logs`

使用 partitioned 查詢:

partitioned 前:

SELECT block_timestamp, event_type
FROM `bigquery-public-data.crypto_band.block_events`
WHERE block_timestamp between '2020-11-01' and '2020-11-02';

partitioned 後，從原本的 GB查詢量變為 MB!

SELECT block_timestamp, event_type
FROM `bigquery-public-data.crypto_band.block_events`
WHERE block_timestamp_truncated between '2020-11-01' and '2020-11-02';

使用 cluster 查詢:

因為沒有找到使用 cluster 的公共數據集，這裡就先自己創立一個 cluster 的 table!

先在你的專案底下建立一個名為 crypto 的資料集:

cluster 前:

CREATE TABLE `crypto.block_events` AS
SELECT block_timestamp_truncated, event_type
FROM `bigquery-public-data.crypto_band.block_events`
WHERE block_timestamp_truncated between '2020-11-01' and '2020-11-02';

SELECT block_timestamp_truncated, event_type
FROM `crypto.block_events`
WHERE event_type = 'resolve';

cluster 後，從原本的 GB查詢量變為 MB!

CREATE TABLE `crypto.block_events_cluster` 
CLUSTER BY event_type AS
SELECT block_timestamp_truncated, event_type
FROM `bigquery-public-data.crypto_band.block_events`
WHERE block_timestamp_truncated between '2020-11-01' and '2020-11-02';
 
SELECT block_timestamp_truncated, event_type
FROM `crypto.block_events_cluster`
WHERE event_type = 'resolve';