iT邦幫忙

2024 iThome 鐵人賽

DAY 5
1
AI/ ML & Data

粗暴的資料處理 DuckDB系列 第 5

Day05 -- Who is using DuckDB (4) ?

  • 分享至 

  • xImage
  •  

講了三天有哪些企業在用 DuckDB,你是不是也想知道 DuckDB 要怎麼在你最愛的語言中使用呢?

別著急,我們在看最後一個在生產環境使用 DuckDB 的例子 HuggingFace 🤗

hug_duck

各家的神仙 Model 現在要震驚世人,絕對是先發表在 HuggingFace 上 (Mistral: ?) HuggingFace 應該是大 AI 時代下第一波已經開始營利的公司,

hugging

我的兩分錢是,HuggingFace 也正在成為重要的資料發布平台,與 AI 模型相伴而生的是資料,如果 AI 是照亮木葉的光,data 就是默默貢獻的影子 😭。

HuggingFace 有一個功能叫做 Dataset。 你只要輕鬆的 pip install datasets 就能輕鬆用 python 取得所有放在 huggingface 的資料集,更棒的事情是 huggingface 上的資料通通會被自動轉成 Parquet,而背後轉換的工作你可能猜到是誰做的🤗,就是 DuckDB

除此之外 DuckDB 提供 first class 的 huggingface dataset support,什麼意思?

duck-hf-url

在任何語言的 Duckdb client,DuckDB 都知道 hf:// 開頭的路徑,就是要去讀 HuggingFace 上的檔案,非常簡單我們就可以分析 TAIDE task 上的資料拉 🤗。

明天就來講講要怎麼在 Python 利用 duckdb 分析 huggingface 上的資料。
還有 Huggingface 上禮拜發表的超酷功能 SQL Console

taide


上一篇
Day04 -- Who is using DuckDB (3) ?
下一篇
Day06 -- Who is using DuckDB (5) ?
系列文
粗暴的資料處理 DuckDB30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言