iT邦幫忙

第 12 屆 iThome 鐵人賽

DAY 26
0
自我挑戰組

30天初探 Amazon Web Services系列 第 26

[Day26] AWS Glue

AWS Glue
是一項全受管擷取、轉換及載入 (ETL) 服務,讓您輕鬆準備並載入資料以進行分析。只要在 AWS Glue 視覺化編輯器按幾下,即可建立並執行 ETL 任務。只要將 AWS Glue 指向存放在 AWS 或 JDBC 相容來源的資料,AWS Glue 就會探索您的資料,並將相關的中繼資料 (例如,表格定義和結構描述) 存放在 AWS Glue 資料型錄中。編入型錄之後,資料立即可供 ETL 搜尋、查詢和使用。

可以使用 AWS Glue 來組織、清除、驗證及格式化資料,以便存放在資料倉儲或資料湖中。 您可以轉換 AWS 雲端資料 並將它移動到您的資料存放區。您也可以將資料從不同的靜態或串流資料來源載入到您的資料倉儲或資料湖,以進行一般報告和分析。透過將資料存放到資料倉儲或資料湖,您可以整合來自您事業不同部分的資訊,並提供通用的資料來源以用於決策。

建置資料倉儲或資料湖時,AWS Glue 可簡化許多任務:

  • 探索有關您的資料存放區的中繼資料,並將它分類至中央目錄。您可以處理半結構化資料,例如點擊流或處理日誌。

  • 以來自排程編目程式的資料表定義填入 AWS Glue 資料目錄。編目程式呼叫分類器邏輯以推斷資料的結構描述、格式和資料類型。此中繼資料存放為 AWS Glue 資料目錄 中的資料表,並用於您的 ETL 任務的撰寫處理。

  • 產生 ETL 指令碼,將資料從來源到目標進行轉換、展平及富集。

  • 偵測結構描述變更並會根據您的偏好設定進行調整。

  • 根據排程或事件觸發 ETL 任務。您可以自動啟動任務,將您的資料移動到資料倉儲或資料湖。觸發器可用於在任務之間建立依存性流程。

  • 收集執行時間指標來監控資料倉儲或資料湖的活動。

  • 處理錯誤和自動重試。

  • 視需要擴展資源來執行您的任務。


上一篇
[Day25] Amazon Athena
下一篇
[Day27] AWS Data Pipeline
系列文
30天初探 Amazon Web Services30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言