前幾天我們已經將 AWS VPC 日誌啟用並將其資料轉換讓 BI 工具可以進行視覺化儀表板的建置,那 VPC 日誌可能無法包含所有你想要分析的欄位,必須『蒐集多個資料源』並於 BI 工具透過 Join 方式合併多個資料源,以便進行更全面的視覺化分析以及機器學習。
所以接下來我們要來實作 -『如何啟用 CloudFront 日誌並於 BI 進行多資料源 Join 分析』,Data Analytics Pipeline 如下圖所示:
大家應該會發現此 Pipeline 與 VPC 日誌蒐集方式架構是十分類似的,
我們一樣會啟用 CloudFront Log,並將 Log 資料儲存至 S3 中,接著使用 AWS Glue Crawler、 Glue Job 自動建立資料表、分區以及轉換格式(轉成 parquet ),然後透過 Athena 查詢並於 QuickSight 建立視覺化圖表,那其實大部分流程會跟 VPC 日誌流程一樣,所以這次我僅會著重實作『如何啟用 CloudFront Log 』以及『如何在 BI 工具進行 Join 作業』,我們就開始吧 GOGO
這時候我們觀察到 CloudFront Log 檔案的副檔名是 .gz 格式,與 VPC Log 原始資料一樣,故大家可以參考『Day 18』~『Day 19』文章將 CloudFront Log 轉換成 Parquet 格式、調整 Partition 以及自動建立資料表
那今天就先這樣,明天我們會討論『如何在 BI 工具 – QuickSight 進行 Join 作業』,明天見囉 : D ~
如果有任何指點與建議,也歡迎留言交流,一起漫步在 Data on AWS 中。