iT邦幫忙

2021 iThome 鐵人賽

DAY 14
0
AI & Data

Data on Air - 以AWS服務實作雲端數據分析系列 第 14

DAY 14 Big Data 5Vs – Variety(速度) Glue(2) ETL

  • 分享至 

  • xImage
  •  

接續基本元件介紹:Glue ETL功能欄中的可以建立ETL Job、Workflow和Blueprint

ETL Jobl:可以在Jobs分頁中建立
https://ithelp.ithome.com.tw/upload/images/20210926/20140161IpK6rtta5p.jpg

有三種Job工作類別可以選擇
Python Shell: 可以執行預存的Python Script,底層並不是分散式運算的計算量,算是資料量介於Lambda和分散式Spark job之間的工具選擇,也適合較簡單的處理流程但比起lambda它沒有執行時間的限制。
Spark*: 可執行pySpark或Scala所撰寫的分散式處理工作,有版本可以選擇
Spark Streaming:可執行pySpark或Scala所撰寫的分散式處理工作,適用針對串流資料的應用場景
https://ithelp.ithome.com.tw/upload/images/20210926/20140161jDm3AE2YZf.jpg
設定時需要指定script的存放地與資料處理的暫存地,預設會在S3

https://ithelp.ithome.com.tw/upload/images/20210926/20140161C9zj7Lh2CE.jpg
值得一提的功能是Job bookmark,適用資料源需要更新CDC的應用場景,可以在第一步開啟

設定資料源
https://ithelp.ithome.com.tw/upload/images/20210926/20140161ge5J6xdtWK.jpg

設定建立資料架構類型
https://ithelp.ithome.com.tw/upload/images/20210926/20140161vV5mkx4Df5.jpg

設定存放目的地
https://ithelp.ithome.com.tw/upload/images/20210926/20140161aw4iEvINAI.jpg
https://ithelp.ithome.com.tw/upload/images/20210926/20140161gZ4MxJaRUf.jpg

最後設定欄位的映射,如果要修改資料格式可以在這裡調整或是拿掉不需要的欄位
https://ithelp.ithome.com.tw/upload/images/20210926/20140161YT1fOqCoUD.jpg

確定後可以進入編寫程式碼的頁面
經過剛剛的設定Glue會產出對應程式碼,在左方可以看見程式碼邏輯的視覺化流程
https://ithelp.ithome.com.tw/upload/images/20210926/201401611WJkfVIhwv.jpg
儲存後可以回到Job分頁中 勾選要執行的Job後點選上方Action下拉選單來查執行與查詢指標
https://ithelp.ithome.com.tw/upload/images/20210926/20140161WEOiVrmjNV.jpg

Trigger:觸發器,可以讓所建立的Job的排程或是讓它能夠被事件趨動
https://ithelp.ithome.com.tw/upload/images/20210926/201401610BZ5XhZM8e.jpg

要設定較複雜的ETL流程可以用以下兩個功能:

Workflows : 可以圖形化拖拉設定自動化的ETL工作安排,方便管理有順序性的任務集合,進而同時觸發多個工作。
https://ithelp.ithome.com.tw/upload/images/20210926/2014016178UhAepsCT.jpg

Blueprint:可以將參數指定給workflow與安排不同的workflow來處理類似的ETL專案。

*Spark ( https://zh.wikipedia.org/wiki/Apache_Spark )


上一篇
DAY 13 Big Data 5Vs – Variety(速度) Glue(1) Crawler
下一篇
DAY 15 Big Data 5Vs – Variety(速度) Glue(3) Glue Studio
系列文
Data on Air - 以AWS服務實作雲端數據分析30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言