Day 6 Glue Data Catalog 教學 - Part 3 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

第 12 屆 iThome 鐵人賽

DAY 6

AI & Data

AWS 數據處理與分析實戰系列第 6 篇

Day 6 Glue Data Catalog 教學 - Part 3

12th鐵人賽

eric88348

2020-09-20 22:07:38

1909 瀏覽

分享至

了解 Classifiers 後，要來介紹如何將 Classifiers 與 Crawlers 結合進行資料爬取

Crawlers 的部分會以一個小範例進行說明，首先我們要到 Kaggle 取得範例資料，資料內容為零售業的歷史訂單資料

這次我們先以處理 orders.csv 這個資料為目標，並且可以對他進行查詢
架構如下，資料儲存在 S3 再透過 Data Catalog 對 S3 上的資料進行爬取與解析，解析完成後再透過 Athena 使用 SQL 的查詢語法對資料進行分析

創建 IAM Role
1-1. 首先創建 Glue 所使用的 IAM Role，到 IAM 的管理頁面點選 Create role

1-2. 選擇要使用 Role 的服務 Glue

1-3. 給予 Role 所需的 Policy，AmazonS3FullAccess、AWSGlueServiceRole，除了 Glue 本身的權限之外，因為資料是儲存在 S3 當中所以還要給予 S3 的權限，讓 Glue 可以存取所需的資料

1-4. Tag 的部分可以先跳過

1-5. 最後幫 Role 取一個好名子就完成了

創建 S3
2-1. 在創建 S3 時須注意所指定的 Region 要與 Glue 的 Region 相同，這樣 Glue 才能正常讀取 S3 中的資料

2-2. 請依照以下階層創建資料夾並放入剛剛從 Kaggle 下載的 orders.csv

SampleData
  └─ order
      └─ order.csv

創建所需的 Classifiers

order.csv 是 CSV 檔，而他的主要分隔符號是使用逗號，次要分而符號沒有使用到但我們還是先選則雙引號做為次要分隔符號，欄位名稱的部分因為資料中已有，所以 Column headings 可以選擇 Detect headings 或是 Has headings，其他部分則是使用默認設定即可

Day 5 Glue Data Catalog 教學 - Part 2

Day 7 Glue Data Catelog 教學 - Part 4

系列文

AWS 數據處理與分析實戰共 30 篇

RSS系列文訂閱系列文

14 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19856 篇

完賽人數

528 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

AWS 數據處理與分析實戰系列 第 6 篇

Day 6 Glue Data Catalog 教學 - Part 3

尚未有邦友留言

標記使用者

AWS 數據處理與分析實戰系列第 6 篇