哈囉大家好,今年又不小心衝動再一次報名了鐵人賽了!這次寫的主題和上次的主題有很大的轉變,主要是因為自己因緣際會下轉換了領域,進入了 Data Engineering 的領域。希望能夠透過這次的鐵人賽紀錄也分享資料工程師以及建置Data pipeline 的知識以及心得。
Data Engineering 隨著AI的興起,逐漸的更被重視了。為了要搭配不同種的業務類型及用途,Data Engineering 本身也面臨了許多挑戰。資料專案過去可能是比較多以報表,分析為主導向的應用,現在多了許多 AI Training相關的應用,許多企業的資料也上了雲端,要處理不同來源的資料,身為資料工程師需要與時俱進,在對的時機使用對的工具。
這次的鐵人賽想要跟大家分享 data pipeline 的建置流程以及開發維運上的一些想法和心得分享。我們都知道科技迭代的速度是非常快的,在軟體領域又是如此,或許這幾年紅的技術,過幾年之後就乏人問津了,在這邊盡可能想要分享思考處理資料的一些觀念以及想法,如此就算未來工具不同甚至是語言不同,但是我們還是可以有一個方法論以及感覺做出一個良好的服務。
分享主題:
在自己剛進入資料工程領域時,買了一些線上課程學習,也參考很多網路上面的優質文章,真心感謝許多熱心的分享者分享在網路上許多的資源。隨著開發十日漸長,遇到的問題不只是工具如何使用,更多的是如何協作,如何寫出好的程式碼等等軟體工程議題。這些資源似乎在資料工程領域的資源相對較少,所以我私心希望透過這次的分享得到許多相關的交流。
希望自己能夠順利完成,也希望透過這次的鐵人賽更進一步整理相關技術經驗,提供需要建立 Data pipeline 的朋友有更多的資源可以參考!
2023 鐵人賽,開賽!