iT邦幫忙

2021 iThome 鐵人賽

DAY 3
2
AI & Data

Data on AWS - 實作建立 Data Analytics Pipeline系列 第 3

【Day 03】 Data Analytics Pipeline 對應於 AWS 中的服務 ( 1 )

  • 分享至 

  • xImage
  •  

昨天我們整理出五步驟 Data Analytics Pipeline 的內容以及需要注意的細節
https://ithelp.ithome.com.tw/upload/images/20210917/20131073YUPSdMFsCX.png

今天我們會來簡單介紹在 Data Analytics Pipeline 中常用的 AWS 服務有哪些:
https://ithelp.ithome.com.tw/upload/images/20210917/20131073aQFQ8byS0l.png


Data Collection Services:

  • AWS Kinesis [1]
    是一個 AWS 全託管的服務,用來蒐集、處理以及分析 streaming data,像是:影音、主機日誌、IoT等即時串流資料,都可以透過 Kinesis 進行蒐集,甚至可以同步進行處理,無需等待蒐集所有的資料後再開始處理。
  • AWS Database Migration Service (DMS) [2]
    是一個AWS全託管的服務,它可以讓使用者透過 AWS DMS 輕鬆遷移客戶的關聯式資料庫、NoSQL 資料庫至 AWS 中,DMS也支援同質遷移 (例如:Oracle 到 Oracle ),也支援不同資料庫平台之間的異質遷移 (例如:Oracle 或Microsoft SQL Server 到 AWS Aurora )。
  • Amazon AppFlow [3]
    是一個全受管的服務,我們可以將客戶的 Salesforce、SAP、Zendesk、Slack 、ServiceNow,以及之後實作會提到的 Google Analytics 等軟體即服務 (SaaS) 相關資料透過 AppFlow 快速且安全地儲存至 AWS 中,不需要花費大量時間自行撰寫、維護程式碼呼叫 API 來彙整資料源。

Data Processing Services:

  • AWS Lambda [4]
    是一個無伺服器(serverless)的運算服務,如果資料處理的流程非常簡單也可以使用 lambda,可以選擇熟悉的語言(python、go、java)進行開發,減少開發時間。
    但是需要特別注意 Lambda 的硬限制(目前每次最大達15分鐘的執行時間、記憶體配置:目前最大10,240 MB等),若頂到硬限制則會造成 lambda timeout/fail 的情況
  • AWS Glue [5]
    AWS Glue 也是一種無伺服器(serverless)資料整合服務,若今天你需要分散式的 ETL 運算,或是較 Lambda 長時間的程式運算處理,則可以考慮使用 Glue 的 ETL 服務。
  • AWS EMR [6]
    EMR 是 AWS 提供的分散資料處理平台,不必擔心基礎架構布建、叢集設定、組態或調校的工作,可以快速建構 Hadoop叢集來進行資料處理。

明天會繼續討論針對 Data Analytics Pipeline on AWS - 資料儲存、資料分析&視覺化服務,如果有任何指點與建議,也歡迎留言交流,一起漫步在Data on AWS中。
我們明天見:)

參考&相關來源:
[1] AWS Kinesis
https://aws.amazon.com/tw/kinesis/
[2] AWS Database Migration Service
https://aws.amazon.com/tw/dms/
[3] Amazon AppFlow
https://aws.amazon.com/tw/appflow/
[4] AWS Lambda
https://aws.amazon.com/tw/lambda/
[5] AWS Glue
https://aws.amazon.com/tw/glue/?whats-new-cards.sort-by=item.additionalFields.postDateTime&whats-new-cards.sort-order=desc
[6] AWS EMR
https://aws.amazon.com/tw/emr/?nc=sn&loc=0&whats-new-cards.sort-by=item.additionalFields.postDateTime&whats-new-cards.sort-order=desc


上一篇
【Day 02】 何謂 Data Analytics Pipeline
下一篇
【Day 04】 Data Analytics Pipeline 對應於 AWS 中的服務 ( 2 )
系列文
Data on AWS - 實作建立 Data Analytics Pipeline30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言