【Day 3】 S3 的相關知識

2024 iThome 鐵人賽

DAY 3

佛心分享-我的證照是這樣攻略的

16th鐵人賽 dea-c01 aws

832 瀏覽

前一回介紹了關於 Data 系列的名詞後，可以得到以下粗略的行為：資料分析師的工作，打破資料藩籬、資料孤島，集中資料到資料湖，進行資料擷取、資料轉換、資料載入後，將處理過的資料擺放到資料倉儲或是關連式資料庫，並進行資料分析（Data Analytics），希望能夠預測未來可能會發生的事件。

關於資料分析師的首要任務，就是進行菜渣集中，收容資料是重要的第一步。

資料湖

關於資料湖的定義中，包含了:

能滿足上述兩點的，幾乎就是在講 Amazon S3

限制 (Limitations, Restrictions): 參考資料
- 每個帳號預設只能開 100 個儲存貯體 (Buckets) ~ 可以填單申請提高至多 1000 個。
- Bucket 命名後，不能再改名，只能刪除後重建。
- 在同一個 Region 下，不能和別的 Bucket 撞名。
High Availability
- 高可用性是基於 S3 的檔案會存放在不同的 AZ，以避免單點故障(SPoF, Single Point of Failure)。
想要省錢
- 可進行數種取捨，見 https://aws.amazon.com/tw/s3/storage-classes/#Performance_across_the_S3_storage_classes
  - 自動將不常存取的資料，更換存放到速度較慢的裝置，俗稱冰起來。
  - 透過智慧的方式自動放進冰箱，稱為 S3 Intelligent-Tiering。
  - 將放在跨 AZ 的複本機制給取消掉，俗稱 Single AZ。 (Region 之下有數個 AZ，只放一份在某個 AZ)
特殊用途
- 以 Amazon S3 Express One Zone 把資料集中在同一個 AZ，以達到更快速地存取。
只放一份、還擺在相同的 AZ，費用變成半價，延遲降低、變快速度變成十倍

我認為今天這些東西比較偏向背誦科目，是用過還不見得會記住的，所以用理解概念的方式來說明。
關於時不時就會聽到 Amazon S3 設計可超過 99.999999999% (11 個 9) 的資料耐用性。 記住「十一個九的耐用性」，應該就差不多了。反正一個 AZ 失效機率大概是 0.0005，條件機率，三個 AZ 一起失效的機率就是 0.000000000125，所以機率就是 1 - 0.000000000125