【Day 19】實作 - 透過 AWS 服務 Glue Job 調整 Partition 以及檔案格式 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2021 iThome 鐵人賽

DAY 19

AI & Data

Data on AWS - 實作建立 Data Analytics Pipeline系列第 19 篇

【Day 19】實作 - 透過 AWS 服務 Glue Job 調整 Partition 以及檔案格式

13th鐵人賽 aws data analytics pipeline 資訊安全 vpc

Dorothy

2021-10-03 11:09:53

1659 瀏覽

分享至

昨天我們已經透過 AWS Glue Crawler 自動建立 VPC Log 資料表，並且我們也看到 AWS Glue Crawler 業已依據資料夾切立 Partition，那可能此 Partition 不符合你的架構規劃，故我們可以透過 AWS Glue Job 來調整 Partition 分區結構以及將此格式轉換成 Parquet 以加快查詢速度。

那我們就開始吧 GOGO

步驟一、於 S3 Bucket 建立一個資料夾

首先我們要建立一個資料夾來存放轉置成 Parquet 的 VPC Log，故我們於先前的 S3 Bucket Create folder (命名為：vpclog-converted-log )

步驟二、搜尋 AWS Glue，並點選 Job 後新增

步驟三、輸入Job相關參數

Name：自行輸入名稱即可
IAM Role：選擇先前建立的 Glue role 即可
註：務必要確認此 role 是否有權限可以存取到 vpclog-converted-log 這個資料夾喔，如果沒有要記得至 IAM 新增權限或修改 policy
Type、Glue version 選擇 Spark
This job runs：選擇 A proposed script generated by AWS Glue
讓 AWS Glue 依據我們設定自動產生程式碼，並存放在下方路徑
Job bookmark：選擇 Enable，當啟用後每次執行此 Job 會記住哪些先前已經處理過、哪些還沒，僅會處理尚未處理過的資料

步驟四、選擇資料來源

這邊我們選擇昨天創建的 vpc log 資料表，按 Next

步驟五、因為我們要進行 Parquet 以及 Schema 轉換，這邊我們選擇 Change schema 按 Next

步驟六、這邊是要設定處理完後的資料表要另外創一個資料表還是更新原資料表，我們選 Create tables in your data target 按 Next

步驟七、設定資料表結構

左側為原始資料結構，右側是修改完的資料結構
因為我們要自行設定 Partition，故我們將 Target 的 Partition_x 都移除後按 Next

步驟八、接著 AWS Glue 就會自動產生對應的程式碼，我們只要在對程式碼進行微調即可

首先我們需要在最前面匯入以下套件

from awsglue.dynamicframe import DynamicFrame
from pyspark.sql.functions import *

接著我們打算抓原始資料的 start 欄位來切出『年/月/日』的 Partition，故我們在這行程式碼：
dropnullfields3 = DropNullFields.apply(frame = resolvechoice2, transformation_ctx = "dropnullfields3")
增加以下程式碼：

dfdst = dropnullfields3.toDF()
dfdst = dfdst.withColumn("year",year(to_date(from_unixtime(dfdst.start))))
dfdst = dfdst.withColumn("month",month(to_date(from_unixtime(dfdst.start))))
dfdst = dfdst.withColumn("day",dayofmonth(to_date(from_unixtime(dfdst.start))))
resultFrame = DynamicFrame.fromDF(dfdst,glueContext,"result")

我們將此行程式碼
datasink4 = …..
替換成以下程式碼

datasink4 = glueContext.write_dynamic_frame.from_options(frame = resultFrame, connection_type = "s3", connection_options = {"path": "s3://<<桶子名稱>> /<<存放VPC Log Parquet資料夾名稱>> /","partitionKeys":["year","month","day","action"]}, format = "parquet", transformation_ctx = "datasink4")

調整如下所示：

接著執行 Run Job ~ 大概等一分鐘就執行成功了

注意：
如果執行 AWS Glue Job 發生錯誤，可以看它的 Error 訊息是否為類似下方訊息
An error occurred while calling o138.pyWriteDynamicFrame. Failed to delete key: vpclog-converted-log/_temporary
那應該是 IAM role 沒有授予適當權限，需要進行調整，下方為參考的 Policy ~