講了三天有哪些企業在用 DuckDB,你是不是也想知道 DuckDB 要怎麼在你最愛的語言中使用呢?
別著急,我們在看最後一個在生產環境使用 DuckDB 的例子 HuggingFace 🤗
各家的神仙 Model 現在要震驚世人,絕對是先發表在 HuggingFace 上 (Mistral: ?) HuggingFace 應該是大 AI 時代下第一波已經開始營利的公司,
我的兩分錢是,HuggingFace 也正在成為重要的資料發布平台,與 AI 模型相伴而生的是資料,如果 AI 是照亮木葉的光,data 就是默默貢獻的影子 😭。
HuggingFace 有一個功能叫做 Dataset。 你只要輕鬆的 pip install datasets
就能輕鬆用 python 取得所有放在 huggingface 的資料集,更棒的事情是 huggingface 上的資料通通會被自動轉成 Parquet,而背後轉換的工作你可能猜到是誰做的🤗,就是 DuckDB
除此之外 DuckDB 提供 first class 的 huggingface dataset support,什麼意思?
在任何語言的 Duckdb client,DuckDB 都知道 hf:// 開頭的路徑,就是要去讀 HuggingFace 上的檔案,非常簡單我們就可以分析 TAIDE task 上的資料拉 🤗。
明天就來講講要怎麼在 Python 利用 duckdb 分析 huggingface 上的資料。
還有 Huggingface 上禮拜發表的超酷功能 SQL Console