4 年前開始研究 DataOps, 當時覺得沒什麼人討論。現在發現百家爭鳴!
Digital Transformation 數位轉型的理想是轉變為 Data-Driven 資料驅動的企業。然而,這一切都沒有想像中簡單,就像軟體開發一樣,大家都事倍功半。所以,DataOps 出現了!
實際上在開發與運帷中 DataOps Team 不會跟 DevOps Team 相隔太遠的,以下這張圖是不包含 DevOps Team 的。
在我們的經驗裡,Data Project 資料專案是涵蓋 IT Project 的,因為資料(產品)依賴 IT Infra 運作,ML Model 就是一例。
圖片來源:https://www.megatrend.com/en/dataops-paradigm-for-better-data-insights/
這張圖或許太偏雲端架構,缺漏一些工具,流程也不盡完整,但是很適合概覽。
圖片來源:https://www.devopsschool.com/blog/top-20-dataops-tools-and-its-ranking/
DataOps 的反覆施行,將構築可靠的 Data Infra 資料基礎建設,支持組織活動。Data Infra 包含各種 raw data 原始資料與 metadata 詮釋資料、reference data 參照資料。
Data Infra 與 IT Infra 有何不同呢?如果要提出最關鍵的差異,應該就是 sharing 分享。Data Infra 必須以共享為本!既然我們基於人類知識(Knowledge)必須共享,而對於著作權有保障年數的限制,那麼 Data 與 Information 應該共享就不奇怪了。(延伸閱讀:(DIKW & 資料的層次 Data, Information, Intelligence) )
因為資料必須經過疊加才能增益價值,跨部門、跨企業、跨產業、跨國家,疊加結果如同煉金。
資料領域從業人員借用 DevOps 的理念與部分框架,倡議 DataOps,讓資料生產者與資料消費者協作,通過實施可重用的流程結構,通過更好的資料品質加速價值創造,以推進資料驅動的實踐。
這個實踐過程,會使得 Data Infra 越來越 mission critical,不會像今天還可以 5*8。(我個人是把 OLTP 歸入 IT Infra, OLAP 歸 Data Infra)
當 OLTP 與 OLAP 相互依賴、不分前後台時,AI 就真正走入日常了。(希望那一天我已經退休了 XD )