iT邦幫忙

鐵人檔案

第 12 屆 iThome 鐵人賽
回列表
AI & Data

AWS 數據處理與分析實戰 系列

在 AWS 上有需多數據處理與分析的服務,常見的有 Glue、Athena、Redshift、等等,這三十天會以 AWS Glue 為出發點,介紹如何在 AWS 上進行數據處理與分析,並一步一步解說如何使用 AWS Service,以及使用中常見問題的解決方法,最後會有實作範例提供參考,希望可以盡量降低大家在 AWS 數據處理與分析的門檻。

鐵人鍊成 | 共 30 篇文章 | 14 人訂閱 訂閱系列文 RSS系列文
DAY 11

Day 11 Glue Partition 教學 - Part 1

今天要介紹再儲存大量資料時會使用到的資料切分方式 Partition 當資料量小時在查詢的速度上不會有感覺,但今天資料量已經累積了一年兩年五年時,資料的大小與資...

2020-09-25 ‧ 由 eric88348 分享
DAY 12

Day 12 Glue Partition 教學 - Part 2

在 S3 上要如何設定 Partition 呢? 在 S3 上 Partition 是透過資料夾階層來規劃,假設我使用年與月當作 Partition 則S3的資...

2020-09-26 ‧ 由 eric88348 分享
DAY 13

Day 13 Athena 教學

在前面有提到透過 Glue Data Catalog 爬取 S3 的資料後,再透過 Athena 進行查詢 而今天要介紹 Athena 在不透過 Glue Da...

2020-09-27 ‧ 由 eric88348 分享
DAY 14

Day 14 Glue ETL Job 教學 - Part 1

接下來我們來介紹 ETL Job在開始之前我們需要先準備資料源 這次我們一樣使用 Kaggle 的資料,將資料放入 S3,階層如下圖 it.sample.s...

2020-09-28 ‧ 由 eric88348 分享
DAY 15

Day 15 Glue ETL Job 教學 - Part 2

完成 S3 資料源的準備後,我們來看如何使用 Glue ETL Job,先來介紹 Spark 的部分 首先創建一個 Glue Job 第一個設定頁面是...

2020-09-29 ‧ 由 eric88348 分享
DAY 16

Day 16 Glue ETL Job 教學 - Part 3

Job 的基礎設定完成後,接下來要設定資料源與輸出目標 這一步驟可以選擇要處理的資料源,選擇 Glue Data Catalog 中的 Table,這邊我們選...

2020-09-30 ‧ 由 eric88348 分享
DAY 17

Day 17 Glue ETL Job 教學 - Part 4

創建完 ETL 的 Spark Job 後我們要加入資料處理的內容,在預設的程式碼中只能做到資料搬遷,那這次我們的目標是要找出每個 user 最常購買的前五名商...

2020-10-01 ‧ 由 eric88348 分享
DAY 18

Day 18 Glue ETL Job 教學 - Part 5

延續昨天的程式碼說明 data_cnt = join_products.groupBy("product_id", "produc...

2020-10-02 ‧ 由 eric88348 分享
DAY 19

Day 19 Glue ETL Job 教學 - Python Shell - Part 1

在 Glue ETL Job 中 除了 Spark 可以使用之外,還可以使用 Python Shell 進行 ETL 的處理,Python Shell 裡已經包...

2020-10-03 ‧ 由 eric88348 分享
DAY 20

Day 20 Glue ETL Job 教學 - Python Shell - Part 2

設定完成後可以開始撰寫所需的 ETL 程式 設定完 Python Shell 後可以看到一個空白的編輯器,這裡我們可以自行撰寫所需的 ETL 程式,接下來會介...

2020-10-04 ‧ 由 eric88348 分享