在 AWS 上有需多數據處理與分析的服務,常見的有 Glue、Athena、Redshift、等等,這三十天會以 AWS Glue 為出發點,介紹如何在 AWS 上進行數據處理與分析,並一步一步解說如何使用 AWS Service,以及使用中常見問題的解決方法,最後會有實作範例提供參考,希望可以盡量降低大家在 AWS 數據處理與分析的門檻。
第一天先來介紹 AWS 上常見的資料處理服務 Lambda如果資料處理的流程非常簡單也可以使用 lambda,可以選擇熟悉的語言進行開發,減少開發時間。...
AWS Glue 為全託管的 SaaS 服務 使用者不需管理 VM,Cluster 的部分也不需要手動設置 就連 VM 中的運算環境 AWS 也都幫各位準備好了...
今天要來介紹 Glue 的另外兩個主要功能 ETL JobETL Job 有三種 ETL 方式可以使用 Python shell當資料量還不需要分散式運...
Data Catalog 由 Classifiers、Crawlers、Tables 組成 首先介紹 Classifiers,Classifiers 負責定義所...
今天接著介紹 JSON、CSV 的 Classifier 設定 c. JSON 設定 JSON path:此處設定如何讀取 JSON 檔例如 JSON 檔內容...
了解 Classifiers 後,要來介紹如何將 Classifiers 與 Crawlers 結合進行資料爬取 Crawlers 的部分會以一個小範例進行說明...
完成前置步驟後,就可以開始創建 Crawler 創建 Crawler4-1 切換到 Crawlers 頁面,點選 Add crawlers 4-2. 點開...
延續昨天的步驟繼續將 Crawler 設定完成 4-6. IAM 的部分選擇我們在步驟 1-1 時創建的 IAM Role(ITGlue) 4-7. Sche...
昨天有說明使用 Athena 前需要執行的設定,今天要接著使用 Athena 進行查詢 5-2. 設定完成後,就可以開始查詢 order.csv 裡的資料,At...
講完整的流程後,我們再回來說明 Table 的資訊與可調整的部分 Table 說明6-1. 點選創建成功的 Table Name 6-2. 可以看到這個...