技術問答
技術文章
iT 徵才
Tag
聊天室
2025 鐵人賽
登入/註冊
問答
文章
Tag
邦友
鐵人賽
搜尋
第 12 屆 iThome 鐵人賽
DAY
15
0
AI & Data
AWS 數據處理與分析實戰
系列 第
15
篇
Day 15 Glue ETL Job 教學 - Part 2
12th鐵人賽
eric88348
2020-09-29 13:34:37
1733 瀏覽
分享至
完成 S3 資料源的準備後,我們來看如何使用 Glue ETL Job,先來介紹 Spark 的部分
首先創建一個 Glue Job
第一個設定頁面是 Job 的基本設定,跟運算有關的都在這邊進行設定
IAM role:這邊的 Role 使用 Day 6 所創建的 Role(ITGlue)
Type:Type 的部分先選擇 Spark
Glue version:選擇最新的 Spark 2.4, Python 3(Glue version 2.0)
Monitoring options:這邊建議 Job metrics 與 Continuous logging 都打勾啟用,可以讓我們在遇到運算失敗時有資訊可以 Troubleshooting
再當前頁面繼續往下可以看到 Security configuration, script libraries, and job parameters (optional) 的選單,這邊可以設定是否加密、Import 而外所需的 Python library,以及設定要使用的運算資源大小
Worker Type:此參數可以設定要使用的運算類型
Standard:此執行類型可以應付單純的資料轉移、資料過濾、欄位拆分或合併
G.1X:如果需要進行 Join、Group、對資料進行計算時,選擇此類型會比較適合,因為在執行這些運算時會使用較多的記憶體
G.2X:進行更複雜的 ETL 計算工作時可能會需要更多的記憶體,這時就可以選擇此類型的運算資源
Number of workers:可以把這個參數想成有多少台 VM 進行運算,每個VM 會根據所選擇的 Worker Type 會有不同的 CPU、Memory
Standard 的 VM 有 4 Core 16G Memory,但每台 VM 會執行兩個 Task
G.1X 的 VM 有 4 Core 16G RAM,每台 VM 只會執行一個 Task,所以 Task 可以有完整的 16G Memory 可以用
G.2X 的 VM 有 8 Core 32G RAM,每台 VM 只會執行一個 Task
其他設定可以維持在默認的狀態下即可
留言
追蹤
檢舉
上一篇
Day 14 Glue ETL Job 教學 - Part 1
下一篇
Day 16 Glue ETL Job 教學 - Part 3
系列文
AWS 數據處理與分析實戰
共
30
篇
目錄
RSS系列文
訂閱系列文
14
人訂閱
26
Day 26 持續同步 S3 資料到 Redshift - Part 1
27
Day 27 持續同步 S3 資料到 Redshift - Part 2
28
Day 28 QuickSight 連接 Redshift - Part 1
29
Day 29 QuickSight 連接 Redshift - Part 2
30
Day 30 QuickSight 功能介紹
完整目錄
熱門推薦
{{ item.subject }}
{{ item.channelVendor }}
|
{{ item.webinarstarted }}
|
{{ formatDate(item.duration) }}
直播中
立即報名
尚未有邦友留言
立即登入留言
iThome鐵人賽
參賽組數
902
組
團體組數
37
組
累計文章數
10432
篇
完賽人數
100
人
看影片追技術
看更多
{{ item.subject }}
{{ item.channelVendor }}
|
{{ formatDate(item.duration) }}
直播中
熱門tag
看更多
15th鐵人賽
16th鐵人賽
13th鐵人賽
14th鐵人賽
12th鐵人賽
11th鐵人賽
鐵人賽
17th鐵人賽
2019鐵人賽
javascript
2018鐵人賽
python
2017鐵人賽
windows
php
c#
windows server
linux
css
react
熱門問題
Esxi 8.0版本上的虛擬機器, 安裝的作業系統是Windows Server 2025, 確定輸入的密碼是正確的, 無法登入(顯示密碼錯誤)
【求助】顯卡/主板 支援 PCIe4.0 為何 Host to Device (H2D) 只剩 Gen1 速度 (0.5 GB/s) ?
請問今天鐵人賽的發文系統是否故障?
Windows GPO Bitlocker
HP iLo Advanced trial license
在線求大神,千奧軟體主機怎麼安裝
Docker Compose 建立 GitLab 容器,執行器 Runner 運行流水線問題
windows server無法使用gpedit.msc
Java證照題目(main() method)
因為網路磁碟的關係造成系統自動重新開機
熱門回答
Esxi 8.0版本上的虛擬機器, 安裝的作業系統是Windows Server 2025, 確定輸入的密碼是正確的, 無法登入(顯示密碼錯誤)
因為網路磁碟的關係造成系統自動重新開機
Windows GPO Bitlocker
【求助】顯卡/主板 支援 PCIe4.0 為何 Host to Device (H2D) 只剩 Gen1 速度 (0.5 GB/s) ?
windows server無法使用gpedit.msc
熱門文章
第30天,完賽心得 / 葉家藥燉排骨 在地排隊美食(新北板橋)| 30天滷肉飯
[為你自己學 n8n] 第 3 天,打開控制台,認識你的自動化駕駛艙!
第4天,數位憑證的產生 / 中崙張記藥膳排骨 排骨讚(台北松山)| 30天滷肉飯
第4天,Cloudflare Public DNS 與 WARP / 滷小小 美味的滷味 | 30天板橋湳雅夜市
第3天, 公鑰與私鑰 / 一甲子餐飲 都是韓國人在吃(台北萬華)| 30天滷肉飯
IT邦幫忙
×
標記使用者
輸入對方的帳號或暱稱
Loading
找不到結果。
標記
{{ result.label }}
{{ result.account }}