在資料分析的過程中,花最多時間的事就是在理出資料處理的邏輯,要花很多時間與資料互動,就像第二天提到資料探勘流程中的三個階段:資料準備(Data Preparation)、建模(Modeling)、評估(Evaluation),其實都會需要一直迭代的,直到取得有效的結果或可行的方案,資料處理更是佔了整個探勘流程多數的時間。所以AWS和市面上許多ETL的工具,都希望可以幫使用者優化這個流程。接著介紹Glue ETL功能中可以與資料互動的工具。
Notebook:
先建立開發端點Dev endpoint,可以在左方工具欄的中下方找到
建立端點後需要等待點時間
待開發端點建立好,可以到notebook分頁建立互動開發環境
有兩種環境可以依使用習慣選擇,SageMaker是AWS的服務(後面會介紹),而SageMaker notebook使用上和jupyter notebook 幾乎一樣。
另一個新功能是Glue Studio:
Glue Studio與 notebook的差別是,Glue Studio提供更高階的圖形化界面讓,使用者能用點選的方式就建立資料處理程式碼。
Glue工具欄點選後點選後會轉跳到Glue Studio專屬頁面
從左方工具來點選至Jobs分頁即可建立新的處理任務
就會進入圖形化開發平台
在中央畫布上方的工具列中點選source,選取資料源
多資料源可以直接新增
點選Trainsform新增處理流程,可以調整這兩份資料要如何交集
設定合併條件/合併欄位
新增mapping處理程序,可以在這個節點設定資料格式或拿掉不要的欄位
設定儲存目的地
在Script分頁可以看到剛剛點選的流程安排所對應的程式碼,右上方可以點選save
利用視覺化工具將處理邏輯整理成程式碼,可以節省時間也減少一些不必要的輸入錯誤。