iT邦幫忙

2023 iThome 鐵人賽

DAY 22
1
AI & Data

如何借助 dbt 優化當代資料倉儲及資料工程師的水肥之路分享系列 第 22

Fundamental of Data Engineering 讀書心得 - 為何推薦這本書及資料工程師的兩種角色

  • 分享至 

  • xImage
  •  

為何推薦這本書

Fundmental of Data Engineering 全面介紹資料工程領域的範疇,從架構到 Data E2E 的理論、心法、工具介紹、建議都有涵蓋,適合想在 Data Engineering 快速增廣見聞的人

緣起-為何看這本書?

本人買書時差不多已是專職資料工程師兩年,總覺得對 data engineering 有點了解但其實對每項知識只有稍微了解的階段。因爲想更全面了解資料工程是什麼,讓 DE 職涯方向有點眉目,所以在 Amazon 上面搜尋 Data Engineer ,看到這本評價超高(4.7)的書,看目錄也符合我找書的方向-全面的認識 Data Engineering 領域,從 DE lifecycle 定義、DE 歷史、工具選擇原則、工具介紹…等等都有講到,出版年份 2022 中也算新,因此就下訂

此本書適合誰看?

若你有這些問題:

現在外面 Data 工具越出越多且越快,我需要每個都學嗎?我要怎麼評估導入哪個工具?

想多了解 Data 架構,怎麼設計,最近幾年的趨勢,優點是什麼?

….等等,這本書可能會讓你有更多想法

建議看此書的人至少有半年以上資料工程師相關經驗,因為他會介紹 DE life cycle E2E,從架構好壞評估、工具選擇原則、每個流程用到的工具介紹,因此建議至少 DE lifecycle 有走過一輪,知道你的資料架構及使用工具,有這些經驗讀起來會比較有感。那什麼是 Data Engineering life cycle?

Data Engineering lifecycle 定義

資料產生→ 存儲 (匯入→ 轉換→ serving 資料) → 資料應用(dashboard, reverseETL, ML)

本書的重點就是介紹資料在從匯入到應用前的過程

Data Engineer 的兩種角色定位

Type A: 主要任務把重複性的工作抽象化,抽象化後能夠用現成的工具管理一套簡潔的 Data Engineering lifecycle

Type B: 主要在公司的系統擴張階段,這類 Data Engineer 建立高度可擴展的數據工具和系統,這些工具和系統能夠利用公司的核心能力和競爭優勢,以確保公司在數據方面能夠達到最佳效能並維持競爭優勢

而這兩種角色可以是在同一公司,同一個 Data 團隊,甚至是同一個人

以 MIGO Data Team 的建立過程為例,也是先把 Data warehouse 的三層架構先建立好,使用 bigquery 及套裝工具讓流程跑順。再把效率比較差的環節,換成我們自己開發的套件,更好維護及胃納大量資料。原則是根據公司的策略方向,再透過自己開發或導入新工具優化資料流程,提高公司競爭力

以上講到這本書的概觀,之後會介紹重要的心法及 Data Warehouse 演進


上一篇
跑 dbt 常碰到的問題如何 debug
下一篇
Fundamental of Data Engineering 讀書重點及心得- Data 架構的種類及演進
系列文
如何借助 dbt 優化當代資料倉儲及資料工程師的水肥之路分享30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言