有鑒於,好事成雙,我們今天延續昨天的 Describe
statement,今天介紹一下它的兄弟。SUMMARIZE
statement。
SUMMARIZE 的用途是快速了解數據的分佈、範圍和基本統計特徵。
讓我們昨天創建的 kafka 表為例,來看看 SUMMARIZE 的使用
CREATE TABLE kafka AS
FROM read_json_auto("https://api.github.com/repos/apache/kafka/pulls?state=closed&sort=updated&direction=desc&per_page=100");
SUMMARIZE kafka;
但是一口氣 SUMMARIZE 所有 kafka 的 columns,容易讓我們迷失在大量的統計資料中,所以我都只挑 3 個以內的 col 看
SUMMARIZE SELECT id, url from kafka;
column_name | column_type | min | max | approx_unique | avg | std | q25 | q50 | q75 | count | null_percentage |
---|---|---|---|---|---|---|---|---|---|---|---|
id | BIGINT | 57709254 | 2120681219 | 88 | 1686060906.02 | 815048067.4768207 | 2029081188 | 2110806888 | 2114850078 | 100 | 0.00 |
url | VARCHAR | https://api.github.com/repos/apache/kafka/pulls/1196 | https://api.github.com/repos/apache/kafka/pulls/837 | 106 | 100 | 0.00 |
是不是非常直覺也非常簡單。
通常 Describe
和 SUMMARIZE
常常搭配一起使用Describe
讓我們知道有哪些 columnsSUMMARIZE
讓我們知道這些 columns 的極大極小值、null 分佈
趕快到 DuckDB WASM 或 Colab 試試看吧!