iT邦幫忙

2024 iThome 鐵人賽

DAY 28
0
AI/ ML & Data

粗暴的資料處理 DuckDB系列 第 28

Day28 -- DuckDB Style SQL (22) ?

  • 分享至 

  • xImage
  •  

有鑒於,好事成雙,我們今天延續昨天的 Describe statement,今天介紹一下它的兄弟。SUMMARIZE statement。

SUMMARIZE 的用途是快速了解數據的分佈、範圍和基本統計特徵。

讓我們昨天創建的 kafka 表為例,來看看 SUMMARIZE 的使用

CREATE TABLE kafka AS 
FROM read_json_auto("https://api.github.com/repos/apache/kafka/pulls?state=closed&sort=updated&direction=desc&per_page=100");
SUMMARIZE kafka;

但是一口氣 SUMMARIZE 所有 kafka 的 columns,容易讓我們迷失在大量的統計資料中,所以我都只挑 3 個以內的 col 看

SUMMARIZE SELECT id, url from kafka;
column_name column_type min max approx_unique avg std q25 q50 q75 count null_percentage
id BIGINT 57709254 2120681219 88 1686060906.02 815048067.4768207 2029081188 2110806888 2114850078 100 0.00
url VARCHAR https://api.github.com/repos/apache/kafka/pulls/1196 https://api.github.com/repos/apache/kafka/pulls/837 106 100 0.00

是不是非常直覺也非常簡單。

通常 DescribeSUMMARIZE 常常搭配一起使用
Describe 讓我們知道有哪些 columns
SUMMARIZE 讓我們知道這些 columns 的極大極小值、null 分佈

趕快到 DuckDB WASM 或 Colab 試試看吧!


上一篇
Day27 -- DuckDB Style SQL (21) ?
下一篇
Day29 -- Why DuckDB is fast ?
系列文
粗暴的資料處理 DuckDB30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言