iT邦幫忙

2021 iThome 鐵人賽

DAY 15
0
AI & Data

Data on Air - 以AWS服務實作雲端數據分析系列 第 15

DAY 15 Big Data 5Vs – Variety(速度) Glue(3) Glue Studio

  • 分享至 

  • xImage
  •  

在資料分析的過程中,花最多時間的事就是在理出資料處理的邏輯,要花很多時間與資料互動,就像第二天提到資料探勘流程中的三個階段:資料準備(Data Preparation)、建模(Modeling)、評估(Evaluation),其實都會需要一直迭代的,直到取得有效的結果或可行的方案,資料處理更是佔了整個探勘流程多數的時間。所以AWS和市面上許多ETL的工具,都希望可以幫使用者優化這個流程。接著介紹Glue ETL功能中可以與資料互動的工具。

Notebook:
先建立開發端點Dev endpoint,可以在左方工具欄的中下方找到
https://ithelp.ithome.com.tw/upload/images/20210927/20140161ksGYGI4wvU.jpg
建立端點後需要等待點時間
https://ithelp.ithome.com.tw/upload/images/20210927/20140161b0E5X3Hd0m.jpg
待開發端點建立好,可以到notebook分頁建立互動開發環境
https://ithelp.ithome.com.tw/upload/images/20210927/20140161sPc7h0lJ5E.jpg
有兩種環境可以依使用習慣選擇,SageMaker是AWS的服務(後面會介紹),而SageMaker notebook使用上和jupyter notebook 幾乎一樣。

另一個新功能是Glue Studio:
Glue Studio與 notebook的差別是,Glue Studio提供更高階的圖形化界面讓,使用者能用點選的方式就建立資料處理程式碼。
Glue工具欄點選後點選後會轉跳到Glue Studio專屬頁面
https://ithelp.ithome.com.tw/upload/images/20210927/20140161fPeNqvazoV.jpg

從左方工具來點選至Jobs分頁即可建立新的處理任務
https://ithelp.ithome.com.tw/upload/images/20210927/20140161UktmCm8uVB.jpg
就會進入圖形化開發平台
https://ithelp.ithome.com.tw/upload/images/20210927/20140161eIA7YCEezf.jpg
在中央畫布上方的工具列中點選source,選取資料源
https://ithelp.ithome.com.tw/upload/images/20210927/201401618YvVJqH4Ia.jpg
多資料源可以直接新增
https://ithelp.ithome.com.tw/upload/images/20210927/201401618HHZ0UtQTM.jpg
點選Trainsform新增處理流程,可以調整這兩份資料要如何交集
https://ithelp.ithome.com.tw/upload/images/20210927/20140161ci8OSNmMOk.jpg

設定合併條件/合併欄位
https://ithelp.ithome.com.tw/upload/images/20210927/20140161GKEQs9lKV0.png

新增mapping處理程序,可以在這個節點設定資料格式或拿掉不要的欄位
https://ithelp.ithome.com.tw/upload/images/20210927/20140161hG53sgeYyQ.jpg
https://ithelp.ithome.com.tw/upload/images/20210927/20140161lww1ajVSyQ.jpg

設定儲存目的地
https://ithelp.ithome.com.tw/upload/images/20210927/20140161c65XXsnykK.jpg
https://ithelp.ithome.com.tw/upload/images/20210927/201401616cWA5VVRRN.jpg

在Script分頁可以看到剛剛點選的流程安排所對應的程式碼,右上方可以點選save
https://ithelp.ithome.com.tw/upload/images/20210927/20140161nMc5iF0sba.jpg

利用視覺化工具將處理邏輯整理成程式碼,可以節省時間也減少一些不必要的輸入錯誤。


上一篇
DAY 14 Big Data 5Vs – Variety(速度) Glue(2) ETL
下一篇
DAY 16 Big Data 5Vs – Variety(速度) Glue(4) Glue Studio
系列文
Data on Air - 以AWS服務實作雲端數據分析30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言