iT邦幫忙

2021 iThome 鐵人賽

DAY 2
3
AI & Data

Data on AWS - 實作建立 Data Analytics Pipeline系列 第 2

【Day 02】 何謂 Data Analytics Pipeline

隨著數位時代的來臨,企業內數據皆已指數級增長,而多數企業也加快數位轉型腳步並推動『以數據驅動的決策模式』,希望從大量的資料中找出有意義的資訊,協助企業做出對應的營運策略[1][2];不知道大家有沒有聽過 DIKW 金字塔[3],它是一個在知識管理領域常被廣泛使用的知識分類方法(圖一),透過金字塔(data> information> knowledge> wisdom),我們也可以瞭解到蒐集資料以及將資料轉換成資訊、知識、智慧對於企業營運策略的重要性。
https://ithelp.ithome.com.tw/upload/images/20210916/20131073oZzrt7IhUN.png
圖一、 DIKW 金字塔[3]

『那要怎麼建構出企業的 DIKW 架構以推動數據驅動的決策模式呢?』

故參考 AWS 官方文件提出資料生命週期的流程[4]以及自己一些個人經驗,我整理出以下 Data Analytics Pipeline,讓我們可以透過 Data Pipeline 從大量的資料中找出有意義的資訊:
https://ithelp.ithome.com.tw/upload/images/20210916/201310731uWcpT9HpF.png

步驟一:Data Collection 資料蒐集

這個步驟主要用意就是:將資料從外部來源移動至另一個儲存位置,以便後續進行資料處理及分析
在這個階段我們要特別考量以下幾點並挑選出合適的方法/對應的 AWS 服務:

  • 原始資料來源以及格式
    不同的 Data Sources,對應使用的 AWS 服務也會有所差異
    例如:
    資料庫資料遷移服務可以使用 AWS Database Migration Service 快速且安全地將資料庫遷移到 AWS 中
    如果想要擷取 streaming data 則可以使用 Amazon Kinesis 服務
    如果想蒐集影音串流相關的則可以使用 Amazon Kinesis Video Streams 將影片從設備傳輸到 AWS
    『故不同的 Data Sources,對應使用的AWS服務也會有所不同,後續我們也會依各別實作案例來討論應使用哪種 Data Collection tool 會較佳』
  • 抓取資料的頻率
    確認欲擷取的資料頻率(每日?/每小時?/即時…etc.),不同的擷取頻率皆會影響儲存的費用以及工具的選用
  • 資料量大小
    瞭解抓取資料量的大小(Mb/sec...etc.)
  • 資料變動方式
    確認 Data Sources 修改資料時的變動方式為複寫?新增?

步驟二:Data Storage (Raw Data) 資料儲存(原始資料)

原始資料暫存區,供後續其他數據團隊進行分析使用,像是:AWS S3、Aurora、RDS、DynamoDB 等,在這個階段可以考量以下幾點並挑選出合適的 AWS 服務:

  • 資料的生命週期以及存取頻率
    定義資料的生命週期,將資料的創造、抓取、保留、備份、到銷毀的整個過程都能加以管理,並根據資料的存取頻繁度或新舊,將資料搬移到合適的儲存服務中,以大幅減省儲存費用的支出

步驟三:Data Processing 資料處理

適當的資料處理有助於進行後續的資料分析,像是:減少多餘欄位、調整欄位格式、合併資料源或者轉換檔案的格式等等,在 AWS 則可以使用 AWS Glue、Lambda、EMR 來進行資料處理
在這個階段可以考量以下幾點並挑選出合適的 ETL 工具:

  • 資料處理的複雜性以及所耗的時間
  • 資料處理的資料量多寡以及頻率

步驟四:Data Storage (Processed Data) 資料儲存(已處理的資料)

已處理的資料暫存區,像是:AWS S3、Aurora、RDS、DynamoDB 等

步驟五:Data Analytics & Visualization 資料分析&視覺化

依據使用者需求進行資料分析以及視覺化

  • 欲呈現的視覺化內容

介紹完 Data Analytics Pipeline,後續實作我們也會以此 Pipeline 流程分析討論我們要用那些工具,明天則會先繼續介紹『 Pipeline 對應於 AWS 服務』的統整,如果有任何指點與建議,也歡迎留言交流,一起漫步在 Data on AWS中。

我們明天見:)

參考&相關來源:
[1] 看數據說話 企業數據驅動的第一步
https://www.watchinese.com/article/2020/24838
[2] 數據驅動行銷
https://www.ainotam.com/what-is-data-driven-marketing/
[3] DIKW模型
https://www.gushiciku.cn/pl/p8hT/zh-tw
[4] Data Lifecycle and Analytics in the AWS Cloud
https://pages.awscloud.com/rs/112-TZM-766/images/Data_Lifecycle_and_Analytics_Reference_Guide.pdf


上一篇
【Day 01】 前言 - 大家好 & 目錄
下一篇
【Day 03】 Data Analytics Pipeline 對應於 AWS 中的服務 ( 1 )
系列文
Data on AWS - 實作建立 Data Analytics Pipeline30

尚未有邦友留言

立即登入留言