iT邦幫忙

第 12 屆 iThome 鐵人賽

DAY 2
0
AI & Data

AWS 數據處理與分析實戰系列 第 2

Day 2 Glue 基本介紹 - Part 1

AWS Glue 為全託管的 SaaS 服務

使用者不需管理 VM,Cluster 的部分也不需要手動設置

就連 VM 中的運算環境 AWS 也都幫各位準備好了

因此可以節省部屬環境時間,讓使用者只需專注在資料處理流程的規劃與程式開發

Glue 有三大主要功能

  1. Data Catalog
    Data Catalog 可以依據 S3 上半結構化的資料(CSV、Json、XML、Parquet、etc) 建立虛擬 Table

例如:S3 上有一批 CSV 的檔案,Catalog 可以依照CSV 的內容產出類似關聯式資料庫的 Table 並且賦予欄位名稱,Table 與 欄位資料會儲存在 Data Catalog 中,而 Table 中的資料則是在 S3 中,當 ETL 工具存取 Table 時會依據 Table 中的資訊與參數爬取 S3 中的 CSV 檔。

Data Catalog 也可以直接連接現有的 Database,目前支援:Amazon RDS、Amazon Redshift、Amazon DocumentDB、MongoDB、有支援 JDBC 的 Database,連接後同樣會建立虛擬 Table 供 ETL 工具存取。


上一篇
Day 1 AWS 資料處理的相關服務
下一篇
Day 3 Glue 基本介紹 - Part 2
系列文
AWS 數據處理與分析實戰30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言