iT邦幫忙

第 12 屆 iThome 鐵人賽

DAY 16
0
AI & Data

AWS 數據處理與分析實戰系列 第 16

Day 16 Glue ETL Job 教學 - Part 3

  • 分享至 

  • xImage
  •  

Job 的基礎設定完成後,接下來要設定資料源與輸出目標

  1. 這一步驟可以選擇要處理的資料源,選擇 Glue Data Catalog 中的 Table,這邊我們選擇 order_products_prior,就可以繼續往下

https://ithelp.ithome.com.tw/upload/images/20200930/20129236zLHFVoMbHd.png

  1. 這個步驟我們選預設的 Change schema

https://ithelp.ithome.com.tw/upload/images/20200930/20129236FWc9lRiRao.png

  1. 這個步驟就要選擇要寫入的目標,這邊請先選擇 Create tables in your data target,之後可以看到另一個設定頁面
    • Data store:這邊可以選擇 S3 與 JDBC,JDBC 可以連結 Redshift、RDS、DynamoDB、etc 的資料庫,但這次我們先選擇 S3
    • Format:資料儲存的格式選擇 CSV
    • Compression type:檔案壓縮的部分先不進行壓縮
    • Target path:這部分可以填入要寫入的 S3 路徑,記得要與資料源的資料夾分開

https://ithelp.ithome.com.tw/upload/images/20200930/20129236Oo83WrCnZs.png

  1. 欄位設定,這部分可以使用圖形化介面的方式設定儲存的欄位資訊,可以調整欄位順序、欄位的資料類型、增減欄位

https://ithelp.ithome.com.tw/upload/images/20200930/20129236YcUJgJBeqV.png

  1. 設定完成後 Glue 會產生出基本的 PySpark 程式碼,這個程式碼可以直接將資料從資料源按照所設定的內容搬遷到 S3 或是以 JDBC 連線的資料庫中

https://ithelp.ithome.com.tw/upload/images/20200930/20129236wyv0XvJGqS.png


上一篇
Day 15 Glue ETL Job 教學 - Part 2
下一篇
Day 17 Glue ETL Job 教學 - Part 4
系列文
AWS 數據處理與分析實戰30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言