iT邦幫忙

2023 iThome 鐵人賽

DAY 26
1

有鑒於本書作者於資料領域打滾十餘年的經驗,對資料工程的趨勢有些想法,分享給大家

資料工具複雜度降低,更易上手

  • 豐富的代管服務使應用程式開發更方便, e.g. GCP cloud function, AWS lambda
  • 雲端平台結合 open source 工具(GCP cloud composer vs Airflow),
  • 現成的資料連接器愈來愈受歡迎,e.g. Fivetran, Airbyte

雲端平台改善資料互通性

  • Data orchestration platform 將透過 Data catalog 及 lineage 加強資料整合及資料警示
  • build, test, deploy, monitor 的資料流程將可透過 Data orchestration platform 寫在 pipeline 中
  • Streaming pipeline 的建立會更加簡單,因為相關工具的興起(Apache Pulsar, Google Cloud Dataflow…等),未來的 Streaming pipeline 會整合更好

企業級的 Data Engineer

大型企業在 Data lifecycle 使用的工具大家都使用得到,因為相關工具的開源及雲端模組化,不像以前大型企業閉關自行開發或是普遍使用封閉式商業工具。現在的工具易於上手且互通性更佳,一家1000人級別的企業與 10人的新創公司可能使用相同工具。舉例,除了雲端平台,像是 Airflow, dbt…等工具,都是業界大小公司都有在用的開源資料工具

現代資料棧→即時資料棧

當現代資料棧(Modern Data Stack) 因爲雲端資料工具的模組化越來越普及時,已經是現在式,本書指出未來的資料架構趨勢方向是即時資料棧(Live Data Stack)。 作者的想像是,Batch Data Pipeline 不會消失,但是因為 streaming data 的相關工具及環境已經越來越多,環境的部分有雲端平台的代管服務,應用於 Streaming Data 的 Database 有 Druid, ClickHouse, Rocketset, Firebolt…等。未來相關工具只會越來越易上手,即時資料棧的實現就會越普及


上一篇
Fundamental of Data Engineering 讀書心得 - DE 工具選擇的要點
下一篇
SQL Server 的索引相關知識整理-重點整理、與 PK 關係?
系列文
如何借助 dbt 優化當代資料倉儲及資料工程師的水肥之路分享30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言