Day 27 持續同步 S3 資料到 Redshift - Part 2 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

第 12 屆 iThome 鐵人賽

DAY 27

AI & Data

Day 27 持續同步 S3 資料到 Redshift - Part 2

12th鐵人賽

1302 瀏覽

執行完成後可以到 Redshift 的 Query editor 進行驗證，在右邊的查詢欄中輸入 select count(*) from top5 計算資料的總筆數，計算出來的筆數是 329999

接下來我們到 Data Catalog 的 Table 使用 Athena 進行確認，這邊是直接查詢 S3 上的資料筆數，所以所以只要資料筆數與 Redshift 中相等，就可以表示資料寫入是正確的

在來我們要驗證如果是第二天的資料同步到 Redshift 後是否會產生重複的資料，將第二天的資料放入 s3://it.sample.s3/toRedshiftFile/20201002/top5-2.csv 代表第二天的資料，接著運行 Crawler(top5-crawler)，Crawler 運行成功後直接運行 ETL Job(it-to-redshift)
ETL Job(it-to-redshift) 運行完成後我們一樣到 Redshift 計算資料筆數，總筆數為 709999，如果總筆數為 1039998 那表示 ETL Job 的 Job bookmark 沒有設為 Enable，可以參考 Day 26 的教學