iT邦幫忙

2021 iThome 鐵人賽

DAY 21
1

前幾天我們已經將 AWS VPC 日誌啟用並將其資料轉換讓 BI 工具可以進行視覺化儀表板的建置,那 VPC 日誌可能無法包含所有你想要分析的欄位,必須『蒐集多個資料源』並於 BI 工具透過 Join 方式合併多個資料源,以便進行更全面的視覺化分析以及機器學習。
所以接下來我們要來實作 -『如何啟用 CloudFront 日誌並於 BI 進行多資料源 Join 分析』,Data Analytics Pipeline 如下圖所示:
https://ithelp.ithome.com.tw/upload/images/20211005/20131073KsTU6bLJGA.png

大家應該會發現此 Pipeline 與 VPC 日誌蒐集方式架構是十分類似的,
我們一樣會啟用 CloudFront Log,並將 Log 資料儲存至 S3 中,接著使用 AWS Glue Crawler、 Glue Job 自動建立資料表、分區以及轉換格式(轉成 parquet ),然後透過 Athena 查詢並於 QuickSight 建立視覺化圖表,那其實大部分流程會跟 VPC 日誌流程一樣,所以這次我僅會著重實作『如何啟用 CloudFront Log 』以及『如何在 BI 工具進行 Join 作業』,我們就開始吧 GOGO


步驟一、搜尋 CloudFront 服務

https://ithelp.ithome.com.tw/upload/images/20211005/201310738Kjk6mDPtm.png


步驟二、選取網站對應的 CloudFront

https://ithelp.ithome.com.tw/upload/images/20211005/20131073i4KKHBeHX0.jpg


步驟三、點選 Edit

https://ithelp.ithome.com.tw/upload/images/20211005/20131073Maf4Pqz3as.jpg


步驟三、啟用 Standard Logging,並儲存到 S3 Bucket

https://ithelp.ithome.com.tw/upload/images/20211005/20131073Uh8lpi1kBT.jpg


等候一段時間後,就可以看到我們的 CloudFront Log 日誌檔案啦~

https://ithelp.ithome.com.tw/upload/images/20211005/20131073SyTbWn8FB6.jpg

這時候我們觀察到 CloudFront Log 檔案的副檔名是 .gz 格式,與 VPC Log 原始資料一樣,故大家可以參考『Day 18』~『Day 19』文章將 CloudFront Log 轉換成 Parquet 格式、調整 Partition 以及自動建立資料表


那今天就先這樣,明天我們會討論『如何在 BI 工具 – QuickSight 進行 Join 作業』,明天見囉 : D ~

如果有任何指點與建議,也歡迎留言交流,一起漫步在 Data on AWS 中。


上一篇
【Day 20】 實作 - 於 AWS Quicksight 建立 Sankey diagram 以及設定 Action
下一篇
【Day 22】 實作 - 如何在 AWS Quicksight Join 不同資料源
系列文
Data on AWS - 實作建立 Data Analytics Pipeline30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言