經過 28 天的學習,今天來看看學術界的一些新技術。這些雖然還比較新,但已經有一些實際的產品了。
Timely Dataflow 是微軟研究院 Frank McSherry 開發的一個計算框架,最大的特點是支援循環計算。
大部分流處理系統都是單向的:數據進來 → 處理 → 輸出。但有些算法需要反覆迭代,比如:
Differential Dataflow 是基於 Timely Dataflow 的增量計算系統,速度超快:
基於這個技術的產品:
Materialize:實時數據倉庫
Noria:高性能資料庫
DBSP 是 Feldera 公司開發的技術,獲得了 VLDB 2023 最佳論文獎(頂級資料庫會議)。
簡單說就是:任何 SQL 查詢都能自動變成增量計算。
以前要實現增量計算很麻煩,需要專門寫代碼。現在 DBSP 可以自動把普通的 SQL 查詢轉換成增量版本,不用手工優化。
Feldera 是基於 DBSP 技術的商業產品:
這些不只是研究,已經有公司在商業化:
了解這些新技術可以:
這些學術技術正在走向實用化,它們代表了流處理技術的新方向:
雖然現在還不是主流,但值得我們關注和學習。技術的進步往往來自學術界的突破,今天的研究成果可能就是明天的業界標準。