Day28 -- DuckDB Style SQL (22) ?

2024 iThome 鐵人賽

DAY 28

AI/ ML & Data

16th鐵人賽

552 瀏覽

有鑒於，好事成雙，我們今天延續昨天的 Describe statement，今天介紹一下它的兄弟。SUMMARIZE statement。

SUMMARIZE 的用途是快速了解數據的分佈、範圍和基本統計特徵。

讓我們昨天創建的 kafka 表為例，來看看 SUMMARIZE 的使用

CREATE TABLE kafka AS 
FROM read_json_auto("https://api.github.com/repos/apache/kafka/pulls?state=closed&sort=updated&direction=desc&per_page=100");

SUMMARIZE kafka;

但是一口氣 SUMMARIZE 所有 kafka 的 columns，容易讓我們迷失在大量的統計資料中，所以我都只挑 3 個以內的 col 看

SUMMARIZE SELECT id, url from kafka;

column_name	column_type	min	max	approx_unique	avg	std	q25	q50	q75	count	null_percentage
id	BIGINT	57709254	2120681219	88	1686060906.02	815048067.4768207	2029081188	2110806888	2114850078	100	0.00
url	VARCHAR	https://api.github.com/repos/apache/kafka/pulls/1196	https://api.github.com/repos/apache/kafka/pulls/837	106						100	0.00