iT邦幫忙

2021 iThome 鐵人賽

DAY 17
1
AI & Data

Data on AWS - 實作建立 Data Analytics Pipeline系列 第 17

【Day 17】 實作 - 啟用 AWS VPC 日誌

哈囉大家好~ 美好的禮拜五終於到了.... 明後天就有更多時間可以趕鐵人賽了哈哈
(嗚嗚抱佛腳活該的我)
/images/emoticon/emoticon13.gif /images/emoticon/emoticon13.gif /images/emoticon/emoticon13.gif


這幾天我們會實作 -『如何啟用 VPC 日誌以及匯入 BI 進行分析』,Data Analytics Pipeline 如下圖所示:
https://ithelp.ithome.com.tw/upload/images/20211005/201310734KWWsGisKN.png
我們會啟用 VPC Flow Log,選取完後可以直接將 Log 資料儲存至 S3 中,接著使用 AWS Glue Crawler、 Glue Job 自動建立資料表、分區以及轉換格式(轉成 parquet ),然後透過 Athena 查詢並於 QuickSight 建立視覺化圖表,那就 GOGO


步驟一、搜尋 VPC 服務

https://ithelp.ithome.com.tw/upload/images/20211001/20131073v2v56N3iFJ.png


步驟二、點選主機所在的 VPC 後點選 Create Flow log

https://ithelp.ithome.com.tw/upload/images/20211001/20131073gt604SbviT.jpg


步驟三、設定 Flow Log 相關細節

  • Name:輸入 Flow Log 自定義名稱
  • Filter:篩選要儲存的流量類型,選項 All 表示紀錄已接受和已拒絕的流量
  • Maximum aggregation interval:設定彙總至一個日誌的最長期間,這邊我選 10 分鐘,表示約 10 分鐘會產生Log 檔案
  • Destination:要傳入哪個目的地,這邊我們選擇 S3 並輸入先前建立的 S3 bucket
  • Log record format:Log 紀錄的欄位,這邊我選擇 default format
    若要使用自訂格式,請選擇 Custom format (自訂格式),然後就可以透過下拉式選取需要的欄位進行設定。
    設定完成後按 Create flow log
    https://ithelp.ithome.com.tw/upload/images/20211001/20131073Bx5JV4JJns.jpg

等候一段時間後,就可以看到我們的 VPC Log 日誌檔案啦~
https://ithelp.ithome.com.tw/upload/images/20211001/201310737lYWXvhShY.png

這時候我們觀察一下檔案時間戳記會發現日誌檔案的確約 10 分鐘會儲存至指定的 S3 位置,接著我們觀察到 VPC Log檔案的副檔名是 .gz 格式,gz 是一種壓縮檔案,我們試著把 Log 資料下載下來就會看到:此檔為壓縮檔,並解壓縮後打開此 Log 資料內容
https://ithelp.ithome.com.tw/upload/images/20211001/20131073pNMzcqe6kN.png
https://ithelp.ithome.com.tw/upload/images/20211001/20131073sO7buNnwqm.jpg


那現在就問題來了:

VPC Log 原始資料為 gz 格式,我要怎麼讓 Athena 查詢並透過 QuickSight 建置儀表板?

故我們需要先確認 Athena 是否可以支援此格式的資料表建置及查詢,我們檢視索引[1]相關文件瞭解確認,Athena 有支援.gz 格式直接資料表建立以及查詢 ~ 不用預先進行檔案解壓縮或轉置

明天我們會繼續實作 - 使用 AWS Glue Crawler 自動建立資料表讓 Athena 可以透過 SQL 語法進行查詢

明天見囉 : D ~

如果有任何指點與建議,也歡迎留言交流,一起漫步在 Data on AWS 中。

[1] Athena Compression Support
https://docs.aws.amazon.com/athena/latest/ug/compression-formats.html


上一篇
【Day 16】 介紹 AWS 中資訊安全 - 流量相關日誌
下一篇
【Day 18】 實作 - 透過 AWS 服務 Glue Crawler 自動建立 VPC Log 資料表
系列文
Data on AWS - 實作建立 Data Analytics Pipeline30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言