iT邦幫忙

2021 iThome 鐵人賽

DAY 2
0
AI & Data

Data on Air - 以AWS服務實作雲端數據分析系列 第 2

Day 2 雲端上的資料流

雲端的分類

第一次點開AWS官網( https://aws.amazon.com/ )或許會有點眼花撩亂,因為在不同的使用場景,對雲端的分類會有不同的用法。維基百科*上有詳細的分類說明,在雲端平台上選用模組時常用到的是以「服務模式」作為分類的區分方式 :
基礎設施即服務 : IaaS, Infrastructure as a Service
平台即服務 : PaaS, Platform as a Service
軟體即服務 : SaaS, Software as a Service

了解這個分類可以幫助我們入門雲端產品,不同類別決定使用者要控制的機器的深度,越往下越不會接觸到底層的作業系統;查看產品介紹時常見的”Managed”, “Fully Managed”也是可以同理看出差別的關鍵字。當平台幫我們託管的系統層面越多時,就可以越專注於資料本身。

另外,在雲端世界中,常見不同的應用場景會有不同的架構,類似買電腦有文書機和電競機的差別,而解決方案,就像是AWS先幫使用者分類出一些符合某一種應用需求的產品,方便快速查找。圖片中也可看出,要使用「資料分析」相關的服務,可以清楚得在首頁中或是(註冊完帳號後)在帳號上方的下拉選單都能快速找到。
https://ithelp.ithome.com.tw/upload/images/20210914/20140161SmtkAJ5VuZ.pnghttps://ithelp.ithome.com.tw/upload/images/20210914/20140161MnxaENsUYC.png

資料流

本次主題的數據分析偏CRISP-DM*定義的資料探勘流程,會介紹資料如何從原始資料(raw data)到提取出洞見(insight)的過程,會提到以下兩個模組 :

資料分析:Data Analytics模組
AWS 的分析服務有資料倉儲、資料湖、互動式分析、大數據處理、和視覺化儀表板等,將各個符合自己需求的模組串接起來,就建好了一個資料分析的架構,也就是資料管線Data Pipeline。如何選出符合當前需求的模組,便是本次主要討論重點,會在未來幾天透過「大數據5V」作為切入的問題的框架進一步討論。

資料探索:Machine Learning模組
主題最後會淺談機器學習模組,因為一個完整的資料分析架構最後通常會串接視覺化儀錶板或是機器學習模組。儀錶板是呈現原始資料經過資料處理、資料分析後所歸納出的結果的常用方式;而搭配機器學習模組可以將分析結果再進一步的利用演算法產生預測以利決策或其他應用。

*雲端的分類(https://zh.wikipedia.org/wiki/%E9%9B%B2%E7%AB%AF%E9%81%8B%E7%AE%97 )
*CRISP-DM是跨行業資料探勘過程標準(cross-industry standard process for data mining): 商業理解(Business Understanding)、資料理解(Data Understanding)、資料準備(Data Preparation)、建模(Modeling)、評估(Evaluation)、發布(Deployment)


上一篇
Day 1 為什麼要在雲端平台上做數據分析?
下一篇
DAY 3 Big Data 5Vs – Volume(容量) - S3
系列文
Data on Air - 以AWS服務實作雲端數據分析30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言