iT邦幫忙

鐵人檔案

第 12 屆 iThome 鐵人賽
回列表
AI & Data

AWS 數據處理與分析實戰 系列

在 AWS 上有需多數據處理與分析的服務,常見的有 Glue、Athena、Redshift、等等,這三十天會以 AWS Glue 為出發點,介紹如何在 AWS 上進行數據處理與分析,並一步一步解說如何使用 AWS Service,以及使用中常見問題的解決方法,最後會有實作範例提供參考,希望可以盡量降低大家在 AWS 數據處理與分析的門檻。

鐵人鍊成 | 共 30 篇文章 | 14 人訂閱 訂閱系列文 RSS系列文
DAY 21

Day 21 Glue Workflows 教學 - Part 1

講完 Data Catalog 與 ETL Job 後,在整個資料處理的流程中可能會需要用自動化的方式讓整個流程可以夠便利,而今天就要來介紹如何創建 Glue...

2020-10-05 ‧ 由 eric88348 分享
DAY 22

Day 22 Glue Workflows 教學 - Part 2

今天要來補充一下昨天的小細節,昨天有介紹完 Workflow 的使用方式,可以正常產生出每個User購買最多的前五名商品,但如果是使用昨天的 S3 資料階層來當...

2020-10-06 ‧ 由 eric88348 分享
DAY 23

Day 23 Redshift 簡介

在介紹 Data Catalog 連接 Redshift 之前,我們先介紹 Redshift 這個資料庫 Redshift 在 AWS 上的定位是 Data W...

2020-10-07 ‧ 由 eric88348 分享
DAY 24

Day 24 Redshift 教學

在介紹完 Redshift 後,我們直接來創建一個 Redshift 首先在創建 Redshift 前,需要先創建 cluster subnet group...

2020-10-08 ‧ 由 eric88348 分享
DAY 25

Day 25 透過 Data Catalog 連接 Redshift

Data Catalog 不只可以使用 S3 作為資料的存取點,也可以使用既有的資料庫作為資料的存取點,今天要來介紹如何將 Redshift 作為 Data C...

2020-10-09 ‧ 由 eric88348 分享
DAY 26

Day 26 持續同步 S3 資料到 Redshift - Part 1

之前在Glue 上進行資料存取時都是使用 S3,而今天我們要透過 Glue Job 將 S3 資料儲存到 Redshift 首先我們先準備資料,這次我是使用...

2020-10-10 ‧ 由 eric88348 分享
DAY 27

Day 27 持續同步 S3 資料到 Redshift - Part 2

接下來我們要來測試是否可以每天進行 Redshift 的資料更新,並且不會產生重複的資料 修改完 ETL Job 的 Script 後就可以直接執行此 Job...

2020-10-11 ‧ 由 eric88348 分享
DAY 28

Day 28 QuickSight 連接 Redshift - Part 1

QuickSight 是 AWS 的 BI 工具,QuickSight 可以非常方便且簡單的串接 AWS 的資料庫或 S3,在 QuickSight 中可以 J...

2020-10-12 ‧ 由 eric88348 分享
DAY 29

Day 29 QuickSight 連接 Redshift - Part 2

在設定完相關的環境參數後,可以開始設定 Redshift 的連接 一樣先到 QuickSight 的主頁,點選 New analysis 在點選 New...

2020-10-13 ‧ 由 eric88348 分享
DAY 30

Day 30 QuickSight 功能介紹

在資料源設定完成後,接下來介紹如何繪製圖表 資料源是代表著每個 User 購買數量前五多的商品,而這個圖表我想要看哪些商品的購買量最多? 我們使用長條圖,並將...

2020-10-14 ‧ 由 eric88348 分享