ETL是一種數據集成過程,通常用於將數據從源系統提取、進行轉換,然後放置到系統中。
主要流程分成幾的階段:
-1.提取(Extract):從源系統(如數據庫、文件、API)中提取需要的數據。這可能涉及到讀取數據、過濾數據、選 擇特定的列或表等操作;
-2.轉換(Transform):對提取的數據進行轉換、清理和重塑,以符合目標系統的需求和規範。這包括數據清理、數據轉換、計算衍生字段、標準化數據格式等操作;
-3.加載(Load):將轉換後的數據加載到目標系統(如SQL SERVER資料庫)中。這可能涉及到數據插入、更新、合併等操作。
ETL 是在數據工程和數據分析中廣泛使用的一個流程。它可以用於構建數據管道,從不同的數據源中提取數據,進行清理和轉換,然後將數據載入到目標系統中,以支持所需報告、數據分析、BI等應用。ETL 可以自動化數據處理過程,提高數據質量和效率,並確保數據準確性和一致性。若是ETL沒有做好,導致資料失誤猶如Garbage in Garbage out.
Airflow 是一個使用 Python 語言編寫的數據管道調度和監控平台。它使用有向無環圖(DAG)的方式來管理任務流程,並提供了豐富的功能和工具來定義、調度和監控數據流
Airflow 的彈性架構使其能夠與各種數據源和工具進行集成,並且可以根據需要進行擴展和自定義。它提供了一個強大而靈活的平台,用於構建和管理數據管道,實現數據的自動化處理和監控。
第一天的部分主要是參考網路上對於air flow 優點的簡介,明天分享將Air flow 安裝於電腦流程。