iT邦幫忙

2025 iThome 鐵人賽

DAY 29
1

經過 28 天的學習,今天來看看學術界的一些新技術。這些雖然還比較新,但已經有一些實際的產品了。

Timely Dataflow & Differential Dataflow

是什麼?

Timely Dataflow 是微軟研究院 Frank McSherry 開發的一個計算框架,最大的特點是支援循環計算

大部分流處理系統都是單向的:數據進來 → 處理 → 輸出。但有些算法需要反覆迭代,比如:

  • PageRank 算法:網頁排名需要多輪計算
  • 機器學習:訓練模型需要不斷調整參數
  • 圖分析:社交網絡分析需要迭代計算

Differential Dataflow 是基於 Timely Dataflow 的增量計算系統,速度超快:

  • 全量計算:15 秒
  • 增量更新:230 微秒
  • 快了 10 萬倍!

相關產品

基於這個技術的產品:

Materialize:實時數據倉庫

  • 網站:https://materialize.com/
  • 特點:SQL 查詢結果實時更新
  • 用途:實時儀表板、實時分析

Noria:高性能資料庫

  • 專為 Web 應用設計
  • 查詢結果自動緩存和更新

資源連結

DBSP

是什麼?

DBSP 是 Feldera 公司開發的技術,獲得了 VLDB 2023 最佳論文獎(頂級資料庫會議)。

簡單說就是:任何 SQL 查詢都能自動變成增量計算

以前要實現增量計算很麻煩,需要專門寫代碼。現在 DBSP 可以自動把普通的 SQL 查詢轉換成增量版本,不用手工優化。

Feldera 產品

Feldera 是基於 DBSP 技術的商業產品:

  • 網站:https://www.feldera.com/
  • 特點:寫 SQL 就能做實時分析
  • 支援複雜查詢:JOIN、聚合、窗口函數等

資源連結

為什麼要關注這些技術?

1. 代表未來趨勢

  • 自動化:不用手工寫增量計算代碼
  • SQL 化:用熟悉的 SQL 就能做複雜的流處理
  • 高性能:比傳統方法快很多

2. 已有實際產品

這些不只是研究,已經有公司在商業化:

  • Materialize
  • Feldera

3. 學習價值

了解這些新技術可以:

  • 開拓技術視野
  • 為未來技術選型做準備
  • 理解流處理的發展方向

總結

這些學術技術正在走向實用化,它們代表了流處理技術的新方向:

  • 更自動化:系統自動優化,減少手工調優
  • 更好用:SQL 接口,降低學習成本
  • 更高效:基於數學理論,性能更好

雖然現在還不是主流,但值得我們關注和學習。技術的進步往往來自學術界的突破,今天的研究成果可能就是明天的業界標準。


上一篇
【知其然,更知其所以然】Day 28: Flink 2.0 + Fluss
下一篇
【知其然,更知其所以然】Day 30: Streaming Data Pipeline 總結
系列文
「知其然,更知其所以然:什麼是 Real-time (Streaming) Pipeline?從造輪子到 Flink 與 RisingWave」30
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言