有鑒於本書作者於資料領域打滾十餘年的經驗,對資料工程的趨勢有些想法,分享給大家
大型企業在 Data lifecycle 使用的工具大家都使用得到,因為相關工具的開源及雲端模組化,不像以前大型企業閉關自行開發或是普遍使用封閉式商業工具。現在的工具易於上手且互通性更佳,一家1000人級別的企業與 10人的新創公司可能使用相同工具。舉例,除了雲端平台,像是 Airflow, dbt…等工具,都是業界大小公司都有在用的開源資料工具
當現代資料棧(Modern Data Stack) 因爲雲端資料工具的模組化越來越普及時,已經是現在式,本書指出未來的資料架構趨勢方向是即時資料棧(Live Data Stack)。 作者的想像是,Batch Data Pipeline 不會消失,但是因為 streaming data 的相關工具及環境已經越來越多,環境的部分有雲端平台的代管服務,應用於 Streaming Data 的 Database 有 Druid, ClickHouse, Rocketset, Firebolt…等。未來相關工具只會越來越易上手,即時資料棧的實現就會越普及