2025 iThome 鐵人賽

DAY 11

Day 11 Glue Partition 教學 - Part 1

今天要介紹再儲存大量資料時會使用到的資料切分方式 Partition 當資料量小時在查詢的速度上不會有感覺，但今天資料量已經累積了一年兩年五年時，資料的大小與資...

0 Like 0 留言 1236 瀏覽

DAY 12

Day 12 Glue Partition 教學 - Part 2

在 S3 上要如何設定 Partition 呢？在 S3 上 Partition 是透過資料夾階層來規劃，假設我使用年與月當作 Partition 則S3的資...

0 Like 0 留言 1613 瀏覽

DAY 13

Day 13 Athena 教學

在前面有提到透過 Glue Data Catalog 爬取 S3 的資料後，再透過 Athena 進行查詢而今天要介紹 Athena 在不透過 Glue Da...

0 Like 0 留言 2793 瀏覽

DAY 14

Day 14 Glue ETL Job 教學 - Part 1

接下來我們來介紹 ETL Job在開始之前我們需要先準備資料源這次我們一樣使用 Kaggle 的資料，將資料放入 S3，階層如下圖 it.sample.s...

0 Like 0 留言 1549 瀏覽

DAY 15

Day 15 Glue ETL Job 教學 - Part 2

完成 S3 資料源的準備後，我們來看如何使用 Glue ETL Job，先來介紹 Spark 的部分首先創建一個 Glue Job 第一個設定頁面是...

0 Like 0 留言 1831 瀏覽

DAY 16

Day 16 Glue ETL Job 教學 - Part 3

Job 的基礎設定完成後，接下來要設定資料源與輸出目標這一步驟可以選擇要處理的資料源，選擇 Glue Data Catalog 中的 Table，這邊我們選...

0 Like 0 留言 1753 瀏覽

DAY 17

Day 17 Glue ETL Job 教學 - Part 4

創建完 ETL 的 Spark Job 後我們要加入資料處理的內容，在預設的程式碼中只能做到資料搬遷，那這次我們的目標是要找出每個 user 最常購買的前五名商...

0 Like 0 留言 1802 瀏覽

DAY 18

Day 18 Glue ETL Job 教學 - Part 5

延續昨天的程式碼說明 data_cnt = join_products.groupBy("product_id", "produc...

0 Like 0 留言 1878 瀏覽

DAY 19

Day 19 Glue ETL Job 教學 - Python Shell - Part 1

在 Glue ETL Job 中除了 Spark 可以使用之外，還可以使用 Python Shell 進行 ETL 的處理，Python Shell 裡已經包...

0 Like 0 留言 1948 瀏覽

DAY 20

Day 20 Glue ETL Job 教學 - Python Shell - Part 2

設定完成後可以開始撰寫所需的 ETL 程式設定完 Python Shell 後可以看到一個空白的編輯器，這裡我們可以自行撰寫所需的 ETL 程式，接下來會介...

1 Like 0 留言 1479 瀏覽

第十二屆佳作

系列文章