AWS Glue 為全託管的 SaaS 服務
使用者不需管理 VM,Cluster 的部分也不需要手動設置
就連 VM 中的運算環境 AWS 也都幫各位準備好了
因此可以節省部屬環境時間,讓使用者只需專注在資料處理流程的規劃與程式開發
Glue 有三大主要功能
例如:S3 上有一批 CSV 的檔案,Catalog 可以依照CSV 的內容產出類似關聯式資料庫的 Table 並且賦予欄位名稱,Table 與 欄位資料會儲存在 Data Catalog 中,而 Table 中的資料則是在 S3 中,當 ETL 工具存取 Table 時會依據 Table 中的資訊與參數爬取 S3 中的 CSV 檔。
Data Catalog 也可以直接連接現有的 Database,目前支援:Amazon RDS、Amazon Redshift、Amazon DocumentDB、MongoDB、有支援 JDBC 的 Database,連接後同樣會建立虛擬 Table 供 ETL 工具存取。