技術問答
技術文章
iT 徵才
Tag
聊天室
2025 鐵人賽
登入/註冊
問答
文章
Tag
邦友
鐵人賽
搜尋
第 12 屆 iThome 鐵人賽
DAY
15
0
AI & Data
AWS 數據處理與分析實戰
系列 第
15
篇
Day 15 Glue ETL Job 教學 - Part 2
12th鐵人賽
eric88348
2020-09-29 13:34:37
1709 瀏覽
分享至
完成 S3 資料源的準備後,我們來看如何使用 Glue ETL Job,先來介紹 Spark 的部分
首先創建一個 Glue Job
第一個設定頁面是 Job 的基本設定,跟運算有關的都在這邊進行設定
IAM role:這邊的 Role 使用 Day 6 所創建的 Role(ITGlue)
Type:Type 的部分先選擇 Spark
Glue version:選擇最新的 Spark 2.4, Python 3(Glue version 2.0)
Monitoring options:這邊建議 Job metrics 與 Continuous logging 都打勾啟用,可以讓我們在遇到運算失敗時有資訊可以 Troubleshooting
再當前頁面繼續往下可以看到 Security configuration, script libraries, and job parameters (optional) 的選單,這邊可以設定是否加密、Import 而外所需的 Python library,以及設定要使用的運算資源大小
Worker Type:此參數可以設定要使用的運算類型
Standard:此執行類型可以應付單純的資料轉移、資料過濾、欄位拆分或合併
G.1X:如果需要進行 Join、Group、對資料進行計算時,選擇此類型會比較適合,因為在執行這些運算時會使用較多的記憶體
G.2X:進行更複雜的 ETL 計算工作時可能會需要更多的記憶體,這時就可以選擇此類型的運算資源
Number of workers:可以把這個參數想成有多少台 VM 進行運算,每個VM 會根據所選擇的 Worker Type 會有不同的 CPU、Memory
Standard 的 VM 有 4 Core 16G Memory,但每台 VM 會執行兩個 Task
G.1X 的 VM 有 4 Core 16G RAM,每台 VM 只會執行一個 Task,所以 Task 可以有完整的 16G Memory 可以用
G.2X 的 VM 有 8 Core 32G RAM,每台 VM 只會執行一個 Task
其他設定可以維持在默認的狀態下即可
留言
追蹤
檢舉
上一篇
Day 14 Glue ETL Job 教學 - Part 1
下一篇
Day 16 Glue ETL Job 教學 - Part 3
系列文
AWS 數據處理與分析實戰
共
30
篇
目錄
RSS系列文
訂閱系列文
14
人訂閱
26
Day 26 持續同步 S3 資料到 Redshift - Part 1
27
Day 27 持續同步 S3 資料到 Redshift - Part 2
28
Day 28 QuickSight 連接 Redshift - Part 1
29
Day 29 QuickSight 連接 Redshift - Part 2
30
Day 30 QuickSight 功能介紹
完整目錄
熱門推薦
{{ item.subject }}
{{ item.channelVendor }}
|
{{ item.webinarstarted }}
|
{{ formatDate(item.duration) }}
直播中
立即報名
尚未有邦友留言
立即登入留言
iThome鐵人賽
參賽組數
403
組
團體組數
13
組
累計文章數
2904
篇
最後報名日
9/15
看影片追技術
看更多
{{ item.subject }}
{{ item.channelVendor }}
|
{{ formatDate(item.duration) }}
直播中
熱門tag
看更多
15th鐵人賽
16th鐵人賽
13th鐵人賽
14th鐵人賽
12th鐵人賽
11th鐵人賽
鐵人賽
2019鐵人賽
javascript
2018鐵人賽
python
2017鐵人賽
17th鐵人賽
windows
php
c#
windows server
linux
css
react
熱門問題
不知道網路紅隊的要去那加公司
更換FW後Public IP service無法使用
鼎新ERP欄位可修改預設值嗎
Ansible 連線主機的 port 不是 22 遇到的問題
備份映像檔
Outlook 寄件備份消失問題 (已解決)
請問有人遇過在lightsail上部屬fastapi失敗的案例?
aws ec2 檢查故障問題
IIS 管理員 連線功能不見
熱門回答
鼎新ERP欄位可修改預設值嗎
不知道網路紅隊的要去那加公司
Ansible 連線主機的 port 不是 22 遇到的問題
更換FW後Public IP service無法使用
備份映像檔
熱門文章
什麼是 Signal ?
第10天,No-Code 快速上線又省錢 / 原汁排骨湯 台北最好喝的排骨湯(台北萬華)| 30天滷肉飯
序: AI 加速編碼後,你該學什麼?
第11天,LibreOffice 更省錢 / 司機俱樂部 宵夜好選擇(台北松山)| 30天滷肉飯
第12天,即時通訊軟體選擇 / 金峰滷肉飯 台北名店(台北中正)| 30天滷肉飯
IT邦幫忙
×
標記使用者
輸入對方的帳號或暱稱
Loading
找不到結果。
標記
{{ result.label }}
{{ result.account }}