iT邦幫忙

2021 iThome 鐵人賽

DAY 4
0
AI & Data

Data on Air - 以AWS服務實作雲端數據分析系列 第 4

DAY 4 Big Data 5Vs – Volume(容量) - S3+Lake Formation

S3無限制的容量與可存儲任何檔案類型的特性,讓它常常出現在近來當紅的應用場景 — 資料湖中。但單單一個很大的儲存服務並不等於資料湖,還需要搭配集中管理與安全存取機制才能真正的實現,不然就會淪為大家口中的資料沼澤Data Swamp。
AWS 的Lake Formation 服務提供了完整的資料湖建置方案,它集成S3與Glue等服務,並加上了更嚴謹的權限管理。Lake Formation讓使用者可以對的S3資料源有自己額外定義的安全政策與資料處理流程,加速資料湖的建立與資料分析的效率和品質。

一進入Lake Formation 首頁,就會跳出提示,需要設定資料湖的管理員,預設是當前登入的帳號。之後也可以到左側setting分頁調整
https://ithelp.ithome.com.tw/upload/images/20210916/20140161F6Y8786erX.jpg

在DashBoard儀錶板分頁可以跟著指引來建立
https://ithelp.ithome.com.tw/upload/images/20210916/20140161tFbMtB4ZfS.jpg
首先,註冊一個S3作為資料湖儲存資料的地方。
再建立資料庫供資料湖環境中存放導入資料的存取目錄。
最後,建立存取資料湖的規則,權限可以細分到資料表。

功能說明:
導入資料進資料湖可以使用Blueprint,在右側的工具欄找到,這個功能區會是集成Glue無伺服器服務,點選Crawlers和Jobs都會轉跳到Glue的頁面,並在對應功能頁之下建立Crawlers、Jobs和workflow以便選用。(Glue的相關使用之後會提)
https://ithelp.ithome.com.tw/upload/images/20210916/201401619emKqJNzXw.jpg
要用哪種Blueprint可以按照目前的使用場景來選擇
https://ithelp.ithome.com.tw/upload/images/20210916/20140161srVOJA2hhm.jpg
在Blueprint中,使用者可以定義要導入的資料源data source、要做的資料處理workflow和最後輸出的資料目的地data target,並將這個流程自動化。
額外提醒,在Glue的頁面也有Blueprint和workflow功能頁,但在Lake Formation定義的Blueprint作業並不會出現在Glue的Blueprint中可是其中的workflow在兩邊的分頁都可以找的到。

有了資料後就可以建立權限政策,可以授權(Grant)不同角色訪問資料湖中的權限。
https://ithelp.ithome.com.tw/upload/images/20210916/20140161YJRR6FFj6Q.jpg
權限的建立與角色分配,依據使用者的場景與習慣都會有所不同,
建議事前先規劃好再建立可以節省時間也避免錯誤。


上一篇
DAY 3 Big Data 5Vs – Volume(容量) - S3
下一篇
DAY 5 Big Data 5Vs – Volume(容量) - RedShift
系列文
Data on Air - 以AWS服務實作雲端數據分析30

尚未有邦友留言

立即登入留言