iT邦幫忙

2021 iThome 鐵人賽

DAY 1
4
AI & Data

Data on AWS - 實作建立 Data Analytics Pipeline系列 第 1

【Day 01】 前言 - 大家好 & 目錄

HI 大家好~ 第一次參加鐵人賽的活動(非常緊張),先簡單跟大家自我介紹,幾年前我是在事務所當個會計人,現在在資訊產業當一枚菜鳥,至於為什麼想要參加鐵人賽? 希望給自己轉職後的一個紀錄 - 好好整理轉職的這一年內,自己努力研究了哪些技術以及服務等,也希望與大家一起分享討論,文章若有任何疏漏或錯誤,還請各位前輩多多批評指教!


回歸正題,這裡明明是AI & Big Data的組別,為何我的主題要提到 Data on AWS 這個名詞呢? 首先我先簡單的介紹什麼是 AWS

Q:AWS ( Amazon Web Services ) 是什麼?

AWS ( Amazon Web Services ) 是一個雲端服務供應商,雲端服務供應商(如Google、Azure、AWS等)會在各個國家建很多個資料中心,讓用戶可以透過上網的方式租用它們IT資源(運算資源、儲存資源、網路資源等),且可以『按用量的方式計費』(就是用多少花多少),避免用戶多餘的花費。
舉一個例子:
今天有一家公司想要建置遊戲伺服器、供玩家連線玩遊戲,若要購買相關的網路、運算以及儲存設備,公司需要事前花費大量的時間去評估『上線後遊戲玩家數量』、『後續遊戲擴張及維護』、『設備耐用年限以及折舊攤提』等許多問題,而當實際購買後,若上線後玩家人數不如預期,又會造成投資設備費用的浪費,且後續仍需要支付人力成本去維護IT設備避免設備損壞。

故雲端服務產業的誕生,讓公司不須事前投入大量的時間評估、購買設備,只須透過網際網路便能向雲端服務供應商租用相關IT資源,大大加快部署流程的進行,且雲端服務供應商也會負責底層基礎設備的維護以及實體機房相關監控,大大降低公司的維護成本。

那目前雲端服務供應商(如Google、Azure、AWS等)除了提供運算資源、儲存資源、網路資源等服務外,他們也致力於開發提供其他服務[1][2][3],像是:影音服務(Media services)、容器化服務(Containers)、機器學習(Machine Learning)以及資料分析(data Analytics)等。

而我們這30天主要就是站在巨人的肩膀上 – 透過 AWS 輕鬆且快速地建置 Data Analytics Pipeline - 蒐集我們需要的資料並進行資料處理、視覺化分析等。


接下來29天,我們會討論以下內容:
1. 介紹 Data Analytics Pipeline 流程以及對應常用的 AWS 服務
【Day 02】 何謂 Data Analytics Pipeline
【Day 03】 Data Analytics Pipeline 對應於 AWS 中的服務 ( 1 )
【Day 04】 Data Analytics Pipeline 對應於 AWS 中的服務 ( 2 )

2. 設置實作初始環境 - 於 AWS 上建置個人的 WordPress 網站
【Day 05】 實作 - 於 AWS 建置個人的 WordPress 網站

3. 實作 - 網站 Google Analytics 分析 on AWS
【Day 06】 實作 - 設定 Google Analytics 工具查看 WordPress 網站
【Day 07】 在 AWS 中打造出 Data Lake 以及 Data Warehouse
【Day 08】 實作 - 透過 AWS 服務 - AppFlow 把 Google Analytics 資料存放至 AWS 中 ( 1 )
【Day 09】 實作 - 透過 AWS 服務 - AppFlow 把 Google Analytics 資料存放至 AWS 中 ( 2 )
【Day 10】 討論 Data Analytics Pipeline - Google Analytics on AWS (整體)
【Day 11】 實作 - 透過 AWS 服務 - Lambda 將 JSON 格式轉換成 Parquet 格式
【Day 12】 實作 - 透過 AWS 服務 - Athena 建立以及查詢資料表
【Day 13】 實作 - 透過 AWS 服務 - QuickSight 建立互動式儀表板 ( 1 )
【Day 14】 實作 - 透過 AWS 服務 - QuickSight 建立互動式儀表板 ( 2 )

4. 實作 - 資安攻擊分析 on AWS
【Day 15】 為何要進行資安攻擊的分析
【Day 16】 介紹 AWS 中資訊安全 - 流量相關日誌
【Day 17】 實作 - 啟用 AWS VPC 日誌
【Day 18】 實作 - 透過 AWS 服務 Glue Crawler 自動建立 VPC Log 資料表
【Day 19】 實作 - 透過 AWS 服務 Glue Job 調整 Partition 以及檔案格式
【Day 20】 實作 - 於 AWS Quicksight 建立 Sankey diagram 以及設定 Action
【Day 21】 實作 - 啟用 AWS CloudFront 日誌
【Day 22】 實作 - 如何在 AWS Quicksight Join 不同資料源
【Day 23】 AWS Kinesis - Data Streams vs Data Firehose 兩者差異
【Day 24】 實作 - 創建 AWS Kinesis Data Firehose for WAF
【Day 25】 實作 - 啟用 AWS WAF 日誌
【Day 26】 實作 - 於 AWS QuickSight 建立 Parameters 以及 Filter 設定

5. 實作 - 伺服器效能監控 on AWS
【Day 27】 為何要進行伺服器效能監控
【Day 28】 伺服器監控 on AWS
【Day 29】 實作 - 如何設定 AWS CloudWatch Alarms

6. 結語
【Day 30】實作 - 如何在 AWS Quicksight 設定告警以及結語


如果有任何指點與建議,也歡迎各位大神留言交流,一起漫步在 Data on AWS 中。

我們明天見:)

參考&相關來源:
[1] AWS 介紹 & 服務
https://aws.amazon.com/tw/what-is-aws/
https://aws.amazon.com/products/?nc1=h_ls
[2] Azure 介紹 & 服務
https://azure.microsoft.com/zh-tw/
[3] GCP 介紹 & 服務
https://cloud.google.com/


下一篇
【Day 02】 何謂 Data Analytics Pipeline
系列文
Data on AWS - 實作建立 Data Analytics Pipeline30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言