今天要介紹再儲存大量資料時會使用到的資料切分方式 Partition 當資料量小時在查詢的速度上不會有感覺,但今天資料量已經累積了一年兩年五年時,資料的大小與資...
在 S3 上要如何設定 Partition 呢? 在 S3 上 Partition 是透過資料夾階層來規劃,假設我使用年與月當作 Partition 則S3的資...
在前面有提到透過 Glue Data Catalog 爬取 S3 的資料後,再透過 Athena 進行查詢 而今天要介紹 Athena 在不透過 Glue Da...
接下來我們來介紹 ETL Job在開始之前我們需要先準備資料源 這次我們一樣使用 Kaggle 的資料,將資料放入 S3,階層如下圖 it.sample.s...
完成 S3 資料源的準備後,我們來看如何使用 Glue ETL Job,先來介紹 Spark 的部分 首先創建一個 Glue Job 第一個設定頁面是...
Job 的基礎設定完成後,接下來要設定資料源與輸出目標 這一步驟可以選擇要處理的資料源,選擇 Glue Data Catalog 中的 Table,這邊我們選...
創建完 ETL 的 Spark Job 後我們要加入資料處理的內容,在預設的程式碼中只能做到資料搬遷,那這次我們的目標是要找出每個 user 最常購買的前五名商...
延續昨天的程式碼說明 data_cnt = join_products.groupBy("product_id", "produc...
在 Glue ETL Job 中 除了 Spark 可以使用之外,還可以使用 Python Shell 進行 ETL 的處理,Python Shell 裡已經包...
設定完成後可以開始撰寫所需的 ETL 程式 設定完 Python Shell 後可以看到一個空白的編輯器,這裡我們可以自行撰寫所需的 ETL 程式,接下來會介...