Day 19 Glue ETL Job 教學 - Python Shell - Part 1 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

第 12 屆 iThome 鐵人賽

DAY 19

AI & Data

AWS 數據處理與分析實戰系列第 19 篇

Day 19 Glue ETL Job 教學 - Python Shell - Part 1

12th鐵人賽

eric88348

2020-10-03 11:16:46

2084 瀏覽

分享至

在 Glue ETL Job 中除了 Spark 可以使用之外，還可以使用 Python Shell 進行 ETL 的處理，Python Shell 裡已經包含了 Pandas 的 Library 可以直接使用，接下來會透過 Python Shell 的方式計算出每個 User 購買前五多的商品

資料源一樣使用 Day 14 所創建好的資料源

it.sample.s3
   ㇄SampleData
        ㇄order
        ⎢  ㇄orders.csv
        ㇄order_products_prior
        ⎢  ㇄order_products__prior.csv
        ㇄order_products_train
        ⎢  ㇄order_products__train.csv
        ㇄products
        ⎢  ㇄products.csv
        ㇄sample_submission
        ⎢  ㇄sample_submission.csv
        ㇄departments
        ⎢  ㇄departments.csv
        ㇄aisles
           ㇄aisles.csv

創建要 import 的 Library 設定檔，Python Shell 需要使用 .egg 或 .whl 安裝所需要的 Library，首先創建一個資料夾並在裡面產生 setup.py，內容如下

from setuptools import setup

setup(
    name="python_shell_s3fs",
    version="0.1",
    packages=[],
    install_requires=['s3fs==0.4.2']
)

創建完成後執行 python3 setup.py bdist_egg，執行完成後你會發現多出了三個資料夾(build、dist、python_shell_s3fs.egg-info)，請將 dist 中的 python_shell_s3fs-0.1-py3.6.egg 上傳到 S3 備用，我將它放在 s3://it.sample.s3/lib/python_shell_s3fs-0.1-py3.6.egg
創建 Glue Job

設定 Python Shell， IAM role 我們一樣使用 Day 10 創建的 Role(ITGlue)
- Type：Type 的部分這次我們選 Python Shell
- Python version：Python 版本我們選 Python3
- This job runs：這部分我們選 A new script to be authored by you，代表我們要創建一個新的 Python Shell 而不是使用既有的程式碼

再往下看到 Security configuration, script libraries, and job parameters (optional) 的部分
- Python library path：這邊填入剛剛上傳到 S3 的 .egg 檔路徑(s3://it.sample.s3/lib/python_shell_s3fs-0.1-py3.6.egg)
- Maximum capacity：使用的運算規格我們直接調到最大 1

以上設定完成就可以點選下一步