Day 16 Glue ETL Job 教學 - Part 3 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

第 12 屆 iThome 鐵人賽

DAY 16

0

AI & Data

AWS 數據處理與分析實戰系列第 16 篇

Day 16 Glue ETL Job 教學 - Part 3

12th鐵人賽

2020-09-30 08:53:33

1363 瀏覽

分享至

Job 的基礎設定完成後，接下來要設定資料源與輸出目標

這一步驟可以選擇要處理的資料源，選擇 Glue Data Catalog 中的 Table，這邊我們選擇 order_products_prior，就可以繼續往下

這個步驟我們選預設的 Change schema

這個步驟就要選擇要寫入的目標，這邊請先選擇 Create tables in your data target，之後可以看到另一個設定頁面
- Data store：這邊可以選擇 S3 與 JDBC，JDBC 可以連結 Redshift、RDS、DynamoDB、etc 的資料庫，但這次我們先選擇 S3
- Format：資料儲存的格式選擇 CSV
- Compression type：檔案壓縮的部分先不進行壓縮
- Target path：這部分可以填入要寫入的 S3 路徑，記得要與資料源的資料夾分開

欄位設定，這部分可以使用圖形化介面的方式設定儲存的欄位資訊，可以調整欄位順序、欄位的資料類型、增減欄位

設定完成後 Glue 會產生出基本的 PySpark 程式碼，這個程式碼可以直接將資料從資料源按照所設定的內容搬遷到 S3 或是以 JDBC 連線的資料庫中

Day 15 Glue ETL Job 教學 - Part 2

Day 17 Glue ETL Job 教學 - Part 4

系列文

AWS 數據處理與分析實戰共 30 篇

目錄

RSS系列文訂閱系列文

14 人訂閱

完整目錄

直播研討會

{{ item.subject }}

{{ item.channelVendor }} {{ item.webinarstarted }} |

{{ formatDate(item.duration) }}

直播中

尚未有邦友留言

立即登入留言

參賽組數

1064 組

團體組數

40 組

累計文章數

22209 篇

完賽人數

600 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# windows server linux css react vue.js

IT邦幫忙