iT邦幫忙

2024 iThome 鐵人賽

DAY 3
0
DevOps

我獨自升級:從水管工走向 DataOps系列 第 3

【Day 3】DataOps 是什麼?

  • 分享至 

  • xImage
  •  

1. DataOps 名稱由來

DataOps 最早是 Lenny Liebmann 在 2014 年提出,主要是為了優化數據流的整合和自動化,進而確保數據質量、可靠性和可用性,其中也結合敏捷(Agile)方法,讓開發和維護流程可以更快速高效。

2. DataOps 主要職責

DataOps 可以理解成 Data 領域的 DevOps

(1)確保資料存取和權限

  • DataOps 工程師需確保資料流能順暢運行,用戶、工程師、其他部門能快速可靠地存取資料。
  • 具體內容:DataOps 確認各來源和各個需要資料的部門,提供相對應的權限,和需要的資料內容

(2)提高數據品質

  • 通過設定數據品質的管控和監控,保證分析和報告數據的準確性、一致性與可信度。
  • 具體內容:用數據檢查工具在不同處理階段,建立多項資料品質檢查的監控指標,除了即時通知以外,也能在前期發現潛在問題並進而修復。

(3)加快營運效率

  • 自動化和優化資料工作流程,縮短從資料到價值的時間週期,並使其能夠持續運行並快速迭代。
  • 具體行為:使用 CI/CD 工具管理和維運,將過去其他軟體開發的方式,調整並導入到資料流程中。

(4)其他

  • 設計可擴展資料方案:以在資料量增加時仍維持效能,處理更多數據負載。
  • 數據合規與安全: 確保資料隱私和安全符合法規下被有效使用,其實就是數據治理的概念。

3. DataOps 與 Data Engineer 差異

  1. 專注目標不同: Data Engineer 更關注資料基礎設施的建立與維護,比如構建和優化資料庫、設計高效的資料存儲方案,以及設計和開發 ETL 管道。DataOps 則更專注於資料流的管理,例如自動化和監控,以確保資料在整個系統中的順暢流動。

  2. 合作的對象不同: Data Engineer 傾向於獨立地構建資料系統,可能與開發者或資料科學家合作,但專注點在技術解決方案。DataOps 強調跨部門協作,他們需要協同資料科學家、分析師、IT 團隊一起運作,以保證資料處理管道和結果的順利交付。

  3. 自動化與工具化: DataOps 在流程自動化和工具選擇方面更加活躍,經常使用 CI/CD 工具、監控工具和基礎設施自動化工具來優化資料運營流程。相較之下,Data Engineer 則更加關注如何構建穩定、可擴展的數據管道,但這部分和 DataOps 也會有許多重疊。

  4. 資料生命週期管理: DataOps 負責管理從資料收集到分析交付的完整生命週期,確保資料可以在整個過程中保持高質量和高效率。Data Engineer 則更加專注於某個特定的數據流程環節,比如數據的提取與清洗。

4. DataOps 需要的技能

  1. 程式能力:Python、Shell Script
  2. 資料編排與轉換工具:Apache Airflow、DBT 等。
  3. 資料庫查詢語言: 熟悉 SQL 是必須的,因為 DataOps 經常需要處理大型資料集,設計高效的查詢來進行資料抽取與分析。另外,了解不同類型的資料庫(關連式/NoSQL 資料庫)等,也有助於處理不同類型的數據(結構化/非結構化數據)。
  4. 雲端運算系統:AWS、GCP 等。
  5. 雲端資料倉儲:Google BigQuery、Amazon Redshift、Snowflake 和 Databricks 等。
  6. 版本控制和自動化部署(CI/CD):Git、Jenkins、GitHub Actions 等。
  7. 監控數據工具:Prometheus、Grafana 等。
  8. 容器技術:Docker、Kubernetes 等。

上一篇
【Day 2】認識 DataOps 之前要知道的 DevOps
下一篇
【Day 4】Airflow 連接 AWS S3 - 介紹與 IAM 設定
系列文
我獨自升級:從水管工走向 DataOps30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言