Day 21 Glue Workflows 教學 - Part 1 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

第 12 屆 iThome 鐵人賽

DAY 21

AI & Data

AWS 數據處理與分析實戰系列第 21 篇

Day 21 Glue Workflows 教學 - Part 1

12th鐵人賽

eric88348

2020-10-05 20:03:34

789 瀏覽

分享至

講完 Data Catalog 與 ETL Job 後，在整個資料處理的流程中可能會需要用自動化的方式讓整個流程可以夠便利，而今天就要來介紹如何創建 Glue 的自動化流程

假設我們的資料源是以天為單位的方式存入S3，如下所示，則會有 Partition 更新的需求，每一天都是一個 Partition，所以在執行 ETL Job 之前需要先執行一次 Data Catalog 來更新新的 Partition 資料，這樣 ETL Job 才能看到最新的資料

it.sample.s3
   ㇄SampleData
        ㇄order
        ⎢   ㇄2020
        ⎢      ㇄01
        ⎢        ㇄01
        ⎢          ㇄orders.csv
        ㇄order_products_prior
        ⎢   ㇄2020
        ⎢      ㇄01
        ⎢        ㇄01
        ⎢          ㇄order_products__prior.csv
        ㇄order_products_train
        ⎢   ㇄2020
        ⎢      ㇄01
        ⎢        ㇄01
        ⎢          ㇄order_products__train.csv
        ㇄products
        ⎢   ㇄2020
        ⎢      ㇄01
        ⎢        ㇄01
        ⎢          ㇄products.csv
        ㇄sample_submission
        ⎢   ㇄2020
        ⎢      ㇄01
        ⎢        ㇄01
        ⎢          ㇄sample_submission.csv
        ㇄departments
        ⎢   ㇄2020
        ⎢      ㇄01
        ⎢        ㇄01
        ⎢          ㇄departments.csv
        ㇄aisles
           ㇄2020
              ㇄01
                ㇄01
                   ㇄aisles.csv

所以我們的目標是在執行完成 Data Catalog 後在執行 ETL Job