Day 9 Glue Data Catalog 教學 - Part 6 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

第 12 屆 iThome 鐵人賽

DAY 9

AI & Data

AWS 數據處理與分析實戰系列第 9 篇

Day 9 Glue Data Catalog 教學 - Part 6

12th鐵人賽

eric88348

2020-09-23 22:38:10

1822 瀏覽

分享至

昨天有說明使用 Athena 前需要執行的設定，今天要接著使用 Athena 進行查詢

5-2. 設定完成後，就可以開始查詢 order.csv 裡的資料，Athena 是使用標準 SQL 進行查詢，所以如果會使用SQL操作資料庫，再來是用 Athena 進行查詢分析幾乎是沒有門檻的，以這個訂單資料來說，可以使用 Athena 找出星期幾的訂單數量是比較多的
SELECT order_dow, count(*) count FROM "it_db"."order" group by order_dow order by order_dow

可以看出是星期日與星期一的訂單數量是最多的，透過 Athena 可以很快的察看任何維度，例如每個消費者的訂單數量、回購頻率的分布、等等，之後可以在匯入其他CSV資料，可以看到每個商品的購買數量，每個客戶喜歡的商品類型、等等

左邊的 Data source 的部分，當中的 Database 與 Table 和 Glue Data Catalog 的 Database 與 Table 是相通的，所以 Crawler 創建的 Table 都會顯示在 Athena 的 Data source 中，透過這個方式 Athena 可以不需要了解 Table 後面的資料實際所儲存的地方，統一透過 Crawler 產生的 Table，Athena 可以直接對這些資料源進行查詢甚至是 join，在不同的資料源之間進行查詢
例如資料源是 S3、MySQL、MongoDB，透過 Glue Data Catalog 的 Crawler 可以將這三個資料源轉換成三個 Database 與 Table，Athena 就可以很輕易的將這些資料進行 Join 與分析