哈囉大家好~ 美好的禮拜五終於到了.... 明後天就有更多時間可以趕鐵人賽了哈哈
(嗚嗚抱佛腳活該的我)
這幾天我們會實作 -『如何啟用 VPC 日誌以及匯入 BI 進行分析』,Data Analytics Pipeline 如下圖所示:
我們會啟用 VPC Flow Log,選取完後可以直接將 Log 資料儲存至 S3 中,接著使用 AWS Glue Crawler、 Glue Job 自動建立資料表、分區以及轉換格式(轉成 parquet ),然後透過 Athena 查詢並於 QuickSight 建立視覺化圖表,那就 GOGO
等候一段時間後,就可以看到我們的 VPC Log 日誌檔案啦~
這時候我們觀察一下檔案時間戳記會發現日誌檔案的確約 10 分鐘會儲存至指定的 S3 位置,接著我們觀察到 VPC Log檔案的副檔名是 .gz 格式,gz 是一種壓縮檔案,我們試著把 Log 資料下載下來就會看到:此檔為壓縮檔,並解壓縮後打開此 Log 資料內容
那現在就問題來了:
故我們需要先確認 Athena 是否可以支援此格式的資料表建置及查詢,我們檢視索引[1]相關文件瞭解確認,Athena 有支援.gz 格式直接資料表建立以及查詢 ~ 不用預先進行檔案解壓縮或轉置
明天我們會繼續實作 - 使用 AWS Glue Crawler 自動建立資料表讓 Athena 可以透過 SQL 語法進行查詢
明天見囉 : D ~
如果有任何指點與建議,也歡迎留言交流,一起漫步在 Data on AWS 中。
[1] Athena Compression Support
https://docs.aws.amazon.com/athena/latest/ug/compression-formats.html