在上篇 「Day23 淬鍊之章-資料補跑機制 Backfill 實作篇」中我們完成 Backfill 機制後,我們的資料管線已經具備了自動化與穩定性的基礎,也完成了淬鍊之章的所有內容。
本篇我們要來介紹,Data Lake 的集中式資料治理與安全存取控管服務 Lake Formation。
AWS Lake Formation (LF) 是一個 集中式資料治理與安全存取控管服務,專門針對 Data Lake (資料湖) 而設計。
它的核心目標是:
👉 你可以把 Lake Formation 想成 Data Lake 的門禁管理員:
IAM 決定「能不能進服務」,Lake Formation 決定「進服務後能看到什麼資料」。
Department=finance
、Classification=confidential
User / IAM Role
│
▼
IAM Policy (能不能用 Athena/Glue/Redshift?)
│
▼
Lake Formation (能看到什麼資料?)
│
├── Database 權限
├── Table 權限
├── Column 權限
└── Row Filter / LF-Tag
│
▼
Glue Data Catalog (Schema/Metadata)
│
▼
Amazon S3 (Data Lake 資料)
服務 | 角色 / 功能說明 |
---|---|
IAM | 決定能不能用 Athena、Glue、Redshift、EMR |
Lake Formation | 決定能不能看哪些 DB / Table / Column / Row |
Glue Data Catalog | 存放 Schema(Database、Table、Column 定義) |
S3 | 存放真實資料 |
Athena / Redshift Spectrum / Glue / EMR / QuickSight | 查詢與分析引擎,會自動遵循 LF 權限 |
MarketingRole
看不到薪資 (salary
) 欄位HRRole
可以查完整資料Environment=prod/test
TagDeveloperRole
只能看到 test
,ProdRole
看到 prod
AWS Lake Formation 提供 集中式、安全、細粒度的存取控制,搭配 Glue Catalog、S3、Athena / Redshift 等服務,讓 Data Lake 不只是「資料池」,而是 安全可控的企業資料平台。
下篇我們將進入「Day25 視覺之章-Lake Formation 實作篇」,實際根據我們的動漫資料表來劃分權限。
[1] AWS 官方文件 - What is AWS Lake Formation?
[2] AWS 官方文件 - What is AWS Glue?