隨著數位時代的來臨,企業內數據皆已指數級增長,而多數企業也加快數位轉型腳步並推動『以數據驅動的決策模式』,希望從大量的資料中找出有意義的資訊,協助企業做出對應的營運策略[1][2];不知道大家有沒有聽過 DIKW 金字塔[3],它是一個在知識管理領域常被廣泛使用的知識分類方法(圖一),透過金字塔(data> information> knowledge> wisdom),我們也可以瞭解到蒐集資料以及將資料轉換成資訊、知識、智慧對於企業營運策略的重要性。
圖一、 DIKW 金字塔[3]
故參考 AWS 官方文件提出資料生命週期的流程[4]以及自己一些個人經驗,我整理出以下 Data Analytics Pipeline,讓我們可以透過 Data Pipeline 從大量的資料中找出有意義的資訊:
這個步驟主要用意就是:將資料從外部來源移動至另一個儲存位置,以便後續進行資料處理及分析
在這個階段我們要特別考量以下幾點並挑選出合適的方法/對應的 AWS 服務:
原始資料暫存區,供後續其他數據團隊進行分析使用,像是:AWS S3、Aurora、RDS、DynamoDB 等,在這個階段可以考量以下幾點並挑選出合適的 AWS 服務:
適當的資料處理有助於進行後續的資料分析,像是:減少多餘欄位、調整欄位格式、合併資料源或者轉換檔案的格式等等,在 AWS 則可以使用 AWS Glue、Lambda、EMR 來進行資料處理
在這個階段可以考量以下幾點並挑選出合適的 ETL 工具:
已處理的資料暫存區,像是:AWS S3、Aurora、RDS、DynamoDB 等
依據使用者需求進行資料分析以及視覺化
介紹完 Data Analytics Pipeline,後續實作我們也會以此 Pipeline 流程分析討論我們要用那些工具,明天則會先繼續介紹『 Pipeline 對應於 AWS 服務』的統整,如果有任何指點與建議,也歡迎留言交流,一起漫步在 Data on AWS中。
我們明天見:)
參考&相關來源:
[1] 看數據說話 企業數據驅動的第一步
https://www.watchinese.com/article/2020/24838
[2] 數據驅動行銷
https://www.ainotam.com/what-is-data-driven-marketing/
[3] DIKW模型
https://www.gushiciku.cn/pl/p8hT/zh-tw
[4] Data Lifecycle and Analytics in the AWS Cloud
https://pages.awscloud.com/rs/112-TZM-766/images/Data_Lifecycle_and_Analytics_Reference_Guide.pdf