iT邦幫忙

鐵人檔案

第 12 屆 iThome 鐵人賽
回列表
AI & Data

AWS 數據處理與分析實戰 系列

在 AWS 上有需多數據處理與分析的服務,常見的有 Glue、Athena、Redshift、等等,這三十天會以 AWS Glue 為出發點,介紹如何在 AWS 上進行數據處理與分析,並一步一步解說如何使用 AWS Service,以及使用中常見問題的解決方法,最後會有實作範例提供參考,希望可以盡量降低大家在 AWS 數據處理與分析的門檻。

鐵人鍊成 | 共 30 篇文章 | 14 人訂閱 訂閱系列文 RSS系列文
DAY 1

Day 1 AWS 資料處理的相關服務

第一天先來介紹 AWS 上常見的資料處理服務 Lambda如果資料處理的流程非常簡單也可以使用 lambda,可以選擇熟悉的語言進行開發,減少開發時間。...

2020-09-15 ‧ 由 eric88348 分享
DAY 2

Day 2 Glue 基本介紹 - Part 1

AWS Glue 為全託管的 SaaS 服務 使用者不需管理 VM,Cluster 的部分也不需要手動設置 就連 VM 中的運算環境 AWS 也都幫各位準備好了...

2020-09-16 ‧ 由 eric88348 分享
DAY 3

Day 3 Glue 基本介紹 - Part 2

今天要來介紹 Glue 的另外兩個主要功能 ETL JobETL Job 有三種 ETL 方式可以使用 Python shell當資料量還不需要分散式運...

2020-09-17 ‧ 由 eric88348 分享
DAY 4

Day 4 Glue Data Catalog 教學 - Part 1

Data Catalog 由 Classifiers、Crawlers、Tables 組成 首先介紹 Classifiers,Classifiers 負責定義所...

2020-09-18 ‧ 由 eric88348 分享
DAY 5

Day 5 Glue Data Catalog 教學 - Part 2

今天接著介紹 JSON、CSV 的 Classifier 設定 c. JSON 設定 JSON path:此處設定如何讀取 JSON 檔例如 JSON 檔內容...

2020-09-19 ‧ 由 eric88348 分享
DAY 6

Day 6 Glue Data Catalog 教學 - Part 3

了解 Classifiers 後,要來介紹如何將 Classifiers 與 Crawlers 結合進行資料爬取 Crawlers 的部分會以一個小範例進行說明...

2020-09-20 ‧ 由 eric88348 分享
DAY 7

Day 7 Glue Data Catelog 教學 - Part 4

完成前置步驟後,就可以開始創建 Crawler 創建 Crawler4-1 切換到 Crawlers 頁面,點選 Add crawlers 4-2. 點開...

2020-09-21 ‧ 由 eric88348 分享
DAY 8

Day 8 Glue Data Catalog 教學 - Part 5

延續昨天的步驟繼續將 Crawler 設定完成 4-6. IAM 的部分選擇我們在步驟 1-1 時創建的 IAM Role(ITGlue) 4-7. Sche...

2020-09-22 ‧ 由 eric88348 分享
DAY 9

Day 9 Glue Data Catalog 教學 - Part 6

昨天有說明使用 Athena 前需要執行的設定,今天要接著使用 Athena 進行查詢 5-2. 設定完成後,就可以開始查詢 order.csv 裡的資料,At...

2020-09-23 ‧ 由 eric88348 分享
DAY 10

Day 10 Glue Data Catalog 教學 - Part 7

講完整的流程後,我們再回來說明 Table 的資訊與可調整的部分 Table 說明6-1. 點選創建成功的 Table Name 6-2. 可以看到這個...

2020-09-24 ‧ 由 eric88348 分享