Day 7 Glue Data Catelog 教學 - Part 4 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

第 12 屆 iThome 鐵人賽

DAY 7

0

AI & Data

AWS 數據處理與分析實戰系列第 7 篇

Day 7 Glue Data Catelog 教學 - Part 4

12th鐵人賽

2020-09-21 21:28:06

1349 瀏覽

分享至

完成前置步驟後，就可以開始創建 Crawler

創建 Crawler
4-1 切換到 Crawlers 頁面，點選 Add crawlers

4-2. 點開 Crawler name 下面的選單，點選 Custom classifiers 裡剛剛創建的 Classifier 右邊的 Add，將他加入右邊的 Selected classifiers，代表要使用這個 Classifier 爬取資料

4-3. 選擇要使用的資料來源，這邊我們選擇 Data stores，也就是外部的資料源

4-4. 填入剛剛上傳 order.csv 的 S3 資料夾路徑，建議可以點選旁邊的資料夾圖示，用圖形化介面的方式選擇 S3 路徑，除了比較方便也可以避免使用到其他 Region 的 S3 造成資料無法訪問
另外要記得選擇資料所在的資料夾，不能直接選擇 CSV 檔，如果直接選擇 CSV 檔 Crawler 會無法正常爬取資料
最下面的 Exclude patterns 可以排除選定的路徑下所不要的資料或資料夾，例如在您的資料中會有不需要爬取的資料夾 testdir，那我們可以在 Exclude patterns 中設定 testdir/**，這樣 Crawler 就不會去處理 testdir 中的資料

4-5. 這邊我們先選擇 No 繼續往下走，如果需要使用多個資料源可以選擇 Yes

Day 6 Glue Data Catalog 教學 - Part 3

Day 8 Glue Data Catalog 教學 - Part 5

系列文

AWS 數據處理與分析實戰共 30 篇

目錄

RSS系列文訂閱系列文

14 人訂閱

完整目錄

尚未有邦友留言

立即登入留言

參賽組數

1064 組

團體組數

40 組

累計文章數

22206 篇

完賽人數

600 人

Stacking Insight

MWC |

57 分

情資在地化防禦更進化

CYBERSEC NOW |

30 分

深入淺出 Kubernetes

Kubernetes Summit |

44 分

Policy priorities and initiatives for securing Industrial Automation and Control Systems (IACS) in the Netherlands

臺灣資安大會 |

25 分

政府在數位轉型之資安新思維

2023 數位政府高峰會 |

29 分

如何在多點開發和離岸進行 LeSS

Hello World Dev Conference |

52 分

如何透過Azure快速打造MLOPS

DevOpsDays |

26 分

小孩子才做選擇：又廣、又深、又快的網路分析，誰說不能全都要？

臺灣資安大會 |

29 分

通往 Cloud Native 的神奇之旅：自製 Kubernetes 工具大揭秘

Kubernetes Summit |

35 分

採取自主防禦阻擋勒索病毒

CYBERSEC NOW |

21 分

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# windows server linux css react vue.js