iT邦幫忙

2021 iThome 鐵人賽

DAY 10
2
AI & Data

Data on AWS - 實作建立 Data Analytics Pipeline系列 第 10

【Day 10】 討論 Data Analytics Pipeline - Google Analytics on AWS (整體)

  • 分享至 

  • xImage
  •  

大家好~ /images/emoticon/emoticon06.gif /images/emoticon/emoticon06.gif /images/emoticon/emoticon06.gif
昨天我們已經成功拉取 Google Analytics 資料到 AWS,可是我們發現『抓取的 Google Analytics 檔案為多行的 JSON 格式』,非常不方便使用者閱讀且 Athena 也不支援此格式搜尋,讓我們無法進行後續的分析處理 (直接碰壁)


故我們需要設計合適的 Data Analytics Pipeline 以便進行資料分析以及視覺化的處理,就以 Google Analytics 資料源為案例,我整理出 Data Analytics Pipeline 用到的相關 AWS 服務供大家參考:
https://ithelp.ithome.com.tw/upload/images/20210924/201310730oHaZWHad4.png

  • 首先我們透過 Data Collection services – AWS Appflow,擷取 Google Analytics 資料並將原始資料存放至 AWS 的 S3 Bucket
  • 接著我們可以透過 AWS Lambda 服務調整欄位格式、欄位名稱以及 S3 資料夾階層規劃,並且將此 JSON 格式文件轉換為 Apache Parquet 格式,可以大大加速查詢的結果以及儲存的費用
  • 並將此處理過後的檔案存放在 AWS S3 Bucket
  • 最後透過 Athena 進行聯合查詢功能並使用 Quicksights 進行視覺化分析

現在我們已經完成 Data Collection 以及 Data Storage ( raw data )的步驟,明天我們則會討論 Data Processing - 如何用 Lambda 進行欄位名稱與格式的調整以及檔案格式轉換~
要開始寫個程式碼囉 /images/emoticon/emoticon02.gif 那就明天見:)

如果有任何指點與建議,也歡迎留言交流,一起漫步在 Data on AWS 中。


上一篇
【Day 09】 實作 - 透過 AWS 服務 - AppFlow 把 Google Analytics 資料存放至 AWS 中 ( 2 )
下一篇
【Day 11】 實作 - 透過 AWS 服務 - Lambda 將 JSON 格式轉換成 Parquet 格式
系列文
Data on AWS - 實作建立 Data Analytics Pipeline30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言