iT邦幫忙

2024 iThome 鐵人賽

DAY 15
0

題目

Questions

Q4

A financial company wants to implement a data mesh. The data mesh must support centralized data governance, data analysis, and data access control. The company has decided to use AWS Glue for data catalogs and extract, transform, and load (ETL) operations. Which combination of AWS services will implement a data mesh? (Choose two.)

  • [ ] A. Use Amazon Aurora for data storage. Use an Amazon Redshift provisioned cluster for data analysis.
  • [x] B. Use Amazon S3 for data storage. Use Amazon Athena for data analysis.
  • [ ] C. Use AWS Glue DataBrew for centralized data governance and access control.
  • [ ] D. Use Amazon RDS for data storage. Use Amazon EMR for data analysis.
  • [x] E. Use AWS Lake Formation for centralized data governance and access control.

描述

  • 金融公司想要開發資料網格服務,集中管理和分析資料,設定資料的存取權限控管。
  • 公司採用 AWS Glue 進行資料型錄(透過 crawler 去識別菜渣並且打上 metadata)、ETL
  • 試問如何進行?

解析

  1. 選項A,Aurora 是 RDS 的一種,可以作為 PostgreSQL 或是 MySQL 的取代。 不論哪種,都是關聯式資料庫。
  2. 選項B,用 S3 來集中存放資料,較符合 data mesh 這種不知道會給你什麼資料,通通都可以存。 而 Athena 可以針對 S3 存放的資料建立表格,提供 SQL 語法讓使用者去撈。
  3. 選項C,提到了 AWS Glue DataBrew 是用來做 ETL 的工具,而不是用來做權限管控的工具。
  4. 選項D,與選項A都是關聯式資料儲存,不合用。
  5. 選項E,AWS Lake Formation 可以去讀取 RDS / DynamoDB / S3 集中菜渣,並提供權限管控。
    https://d1.awsstatic.com/diagrams/Lake-formation-HIW.9ea3fab3b2ac697a42ae7a805b986278ffd4f41e.png

Q5

A data engineer maintains custom Python scripts that perform a data formatting process that many AWS Lambda functions use. When the data engineer needs to modify the Python scripts, the data engineer must manually update all the Lambda functions. The data engineer requires a less manual way to update the Lambda functions. Which solution will meet this requirement?

  • [ ] A. Store a pointer to the custom Python scripts in the execution context object in a shared Amazon S3 bucket.
  • [x] B. Package the custom Python scripts into Lambda layers. Apply the Lambda layers to the Lambda functions.
  • [ ] C. Store a pointer to the custom Python scripts in environment variables in a shared Amazon S3 bucket.
  • [ ] D. Assign the same alias to each Lambda function. Call reach Lambda function by specifying the function's alias.

描述

  • 資料工程師,要管理 python 程式碼,處理資料格式。
  • 這個程式被許多 AWS Lambda 所依賴。
  • 當更新了程式,居然要手動逐個去更新 Lambda functions。
  • 如何省力?

解析

Q6

A company created an extract, transform, and load (ETL) data pipeline in AWS Glue. A data engineer must crawl a table that is in Microsoft SQL Server. The data engineer needs to extract, transform, and load the output of the crawl to an Amazon S3 bucket. The data engineer also must orchestrate the data pipeline. Which AWS service or feature will meet these requirements MOST cost-effectively?

  • [ ] A. AWS Step Functions
  • [x] B. AWS Glue workflows
  • [ ] C. AWS Glue Studio
  • [ ] D. Amazon Managed Workflows for Apache Airflow (Amazon MWAA)

描述

  • 一公司建造了資料管線(Data Pipeline),串 AWS Glue。
  • 資料工程師要去爬 MS SQL Server
  • ETL 完的資料,放到 S3 bucket 中。
  • 試問最便宜的方案?

解析

  • 選項A,的 Step Functions 是「無伺服器工作微服務工作編排」,其主要的用途是用來觸發 AWS 上的服務、Lambda function,並且接收觸發 function 的回傳結果,根據狀態不同去分別觸發不同任務。
  • 選項B,相較於 A,Glue 可以透過 connector 和 MS SQL Server 對接。
  • 選項C,Glue Studio 指的是 Glue 底下的一個可視覺化編輯的開發介面。
  • Amazon Managed Workflows for Apache Airflow (Amazon MWAA) 算是第三方的服務託管在 AWS 上,然後蠻貴。

結論

  • 出現一些我們還沒介紹過的服務,後續有需要會再介紹。
    • AWS Lambda
    • AWS Step Functions
    • Amazon MWAA

上一篇
【Day 14】 資料倉儲 (Data Warehouse) 的概念
下一篇
【Day 16】 AWS Lambda Functions 的簡單介紹
系列文
老闆,外帶一份 AWS Certified Data Engineer30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言