當初在做資料分析時,看到其他資料人員建自己的 database 跟一些服務,這樣在嘗試新工具時可以不用等其他人幫忙建置相關的環境,讓我覺得技能拓展也是很重要的,尤其我過去跟資料相關的3個工作經驗就有2個資料團隊是1人團隊。
資料工程的職務在不同公司間做的事情也不相同,這邊就以我自己的經驗來做分享。
當時主要的任務為
對於資料工程,在這邊我覺得除了 python 外,還有2個工具對資料工程師而言是重要的。
覺得 Docker 這個工具重要的原因,跟前面提到的自己建服務有關。
這種容器化服務運用,在起服務時相對容易,而且也不會把環境弄雜。蠻多開源的服務都有 docker 可以執行的方案,有些甚至下載的 docker image 就可以直接用了,不怎麼需要再進行調整。
這裡我過去在入門 Docker 時,身邊的朋友推薦這個鐵人賽的內容 - 30 天與鯨魚先生做好朋友 ,真的幫助很多。
管理 data pipeline 的工具。
資料 ETL 的流程,如果只有用到 SQL 的話,可以使用資料庫的預存程序來建置。
但如果有用到 Python 進行處理的話,就需要其他的排程方式了,比如排程管理工具,但排程一多或是設置未完整的話不容易查看哪個排程的執行狀況或是執行失敗時是什麼原因。
所以在接觸 airflow 時,才發現它在管理 data pipeline 很容易看每日排程的執行狀況、未成功的排程發生的問題是什麼、debug 後易於重跑排程。