第十二屆 佳作

ai-and-data
AWS 數據處理與分析實戰
eric88348

系列文章

DAY 11

Day 11 Glue Partition 教學 - Part 1

今天要介紹再儲存大量資料時會使用到的資料切分方式 Partition 當資料量小時在查詢的速度上不會有感覺,但今天資料量已經累積了一年兩年五年時,資料的大小與資...

DAY 12

Day 12 Glue Partition 教學 - Part 2

在 S3 上要如何設定 Partition 呢? 在 S3 上 Partition 是透過資料夾階層來規劃,假設我使用年與月當作 Partition 則S3的資...

DAY 13

Day 13 Athena 教學

在前面有提到透過 Glue Data Catalog 爬取 S3 的資料後,再透過 Athena 進行查詢 而今天要介紹 Athena 在不透過 Glue Da...

DAY 14

Day 14 Glue ETL Job 教學 - Part 1

接下來我們來介紹 ETL Job在開始之前我們需要先準備資料源 這次我們一樣使用 Kaggle 的資料,將資料放入 S3,階層如下圖 it.sample.s...

DAY 15

Day 15 Glue ETL Job 教學 - Part 2

完成 S3 資料源的準備後,我們來看如何使用 Glue ETL Job,先來介紹 Spark 的部分 首先創建一個 Glue Job 第一個設定頁面是...

DAY 16

Day 16 Glue ETL Job 教學 - Part 3

Job 的基礎設定完成後,接下來要設定資料源與輸出目標 這一步驟可以選擇要處理的資料源,選擇 Glue Data Catalog 中的 Table,這邊我們選...

DAY 17

Day 17 Glue ETL Job 教學 - Part 4

創建完 ETL 的 Spark Job 後我們要加入資料處理的內容,在預設的程式碼中只能做到資料搬遷,那這次我們的目標是要找出每個 user 最常購買的前五名商...

DAY 18

Day 18 Glue ETL Job 教學 - Part 5

延續昨天的程式碼說明 data_cnt = join_products.groupBy("product_id", "produc...

DAY 19

Day 19 Glue ETL Job 教學 - Python Shell - Part 1

在 Glue ETL Job 中 除了 Spark 可以使用之外,還可以使用 Python Shell 進行 ETL 的處理,Python Shell 裡已經包...

DAY 20

Day 20 Glue ETL Job 教學 - Python Shell - Part 2

設定完成後可以開始撰寫所需的 ETL 程式 設定完 Python Shell 後可以看到一個空白的編輯器,這裡我們可以自行撰寫所需的 ETL 程式,接下來會介...