Fundmental of Data Engineering 全面介紹資料工程領域的範疇,從架構到 Data E2E 的理論、心法、工具介紹、建議都有涵蓋,適合想在 Data Engineering 快速增廣見聞的人
本人買書時差不多已是專職資料工程師兩年,總覺得對 data engineering 有點了解但其實對每項知識只有稍微了解的階段。因爲想更全面了解資料工程是什麼,讓 DE 職涯方向有點眉目,所以在 Amazon 上面搜尋 Data Engineer ,看到這本評價超高(4.7)的書,看目錄也符合我找書的方向-全面的認識 Data Engineering 領域,從 DE lifecycle 定義、DE 歷史、工具選擇原則、工具介紹…等等都有講到,出版年份 2022 中也算新,因此就下訂
若你有這些問題:
現在外面 Data 工具越出越多且越快,我需要每個都學嗎?我要怎麼評估導入哪個工具?
想多了解 Data 架構,怎麼設計,最近幾年的趨勢,優點是什麼?
….等等,這本書可能會讓你有更多想法
建議看此書的人至少有半年以上資料工程師相關經驗,因為他會介紹 DE life cycle E2E,從架構好壞評估、工具選擇原則、每個流程用到的工具介紹,因此建議至少 DE lifecycle 有走過一輪,知道你的資料架構及使用工具,有這些經驗讀起來會比較有感。那什麼是 Data Engineering life cycle?
資料產生→ 存儲 (匯入→ 轉換→ serving 資料) → 資料應用(dashboard, reverseETL, ML)
本書的重點就是介紹資料在從匯入到應用前的過程
Type A: 主要任務把重複性的工作抽象化,抽象化後能夠用現成的工具管理一套簡潔的 Data Engineering lifecycle
Type B: 主要在公司的系統擴張階段,這類 Data Engineer 建立高度可擴展的數據工具和系統,這些工具和系統能夠利用公司的核心能力和競爭優勢,以確保公司在數據方面能夠達到最佳效能並維持競爭優勢
而這兩種角色可以是在同一公司,同一個 Data 團隊,甚至是同一個人
以 MIGO Data Team 的建立過程為例,也是先把 Data warehouse 的三層架構先建立好,使用 bigquery 及套裝工具讓流程跑順。再把效率比較差的環節,換成我們自己開發的套件,更好維護及胃納大量資料。原則是根據公司的策略方向,再透過自己開發或導入新工具優化資料流程,提高公司競爭力
以上講到這本書的概觀,之後會介紹重要的心法及 Data Warehouse 演進