iT邦幫忙

第 12 屆 iThome 鐵人賽

DAY 27
0
AI & Data

AWS 數據處理與分析實戰系列 第 27

Day 27 持續同步 S3 資料到 Redshift - Part 2

  • 分享至 

  • xImage
  •  

接下來我們要來測試是否可以每天進行 Redshift 的資料更新,並且不會產生重複的資料

  1. 修改完 ETL Job 的 Script 後就可以直接執行此 Job

https://ithelp.ithome.com.tw/upload/images/20201009/201292361fd8uIeZk9.png

  1. 執行完成後可以到 Redshift 的 Query editor 進行驗證,在右邊的查詢欄中輸入 select count(*) from top5 計算資料的總筆數,計算出來的筆數是 329999

https://ithelp.ithome.com.tw/upload/images/20201009/20129236W9DkdzYw8Z.png

  1. 接下來我們到 Data Catalog 的 Table 使用 Athena 進行確認,這邊是直接查詢 S3 上的資料筆數,所以所以只要資料筆數與 Redshift 中相等,就可以表示資料寫入是正確的

https://ithelp.ithome.com.tw/upload/images/20201009/20129236X31zeK2eck.png

  1. 在 Athena 中輸入 SELECT count(*) FROM "it_db"."toredshiftfile" 進行查詢

https://ithelp.ithome.com.tw/upload/images/20201009/20129236CDLzFVTMpr.png

  1. 在來我們要驗證如果是第二天的資料同步到 Redshift 後是否會產生重複的資料,將第二天的資料放入 s3://it.sample.s3/toRedshiftFile/20201002/top5-2.csv 代表第二天的資料,接著運行 Crawler(top5-crawler),Crawler 運行成功後直接運行 ETL Job(it-to-redshift)

  2. ETL Job(it-to-redshift) 運行完成後我們一樣到 Redshift 計算資料筆數,總筆數為 709999,如果總筆數為 1039998 那表示 ETL Job 的 Job bookmark 沒有設為 Enable,可以參考 Day 26 的教學

https://ithelp.ithome.com.tw/upload/images/20201009/20129236LLgqvX0Bok.png

  1. 透過 Athena 進行確認真實筆數,總筆數為 709999,所以代表 Redshift 上的資料筆數與 S3 中的資料筆數是相同的

https://ithelp.ithome.com.tw/upload/images/20201009/20129236iH2RH2BMeM.png

  1. 第三天的資料就留給各位自行操作,重複步驟 4~7 即可

上一篇
Day 26 持續同步 S3 資料到 Redshift - Part 1
下一篇
Day 28 QuickSight 連接 Redshift - Part 1
系列文
AWS 數據處理與分析實戰30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言