iT邦幫忙

2024 iThome 鐵人賽

DAY 3
0

前一回介紹了關於 Data 系列的名詞後,可以得到以下粗略的行為:資料分析師的工作,打破資料藩籬、資料孤島,集中資料到資料湖,進行資料擷取、資料轉換、資料載入後,將處理過的資料擺放到資料倉儲或是關連式資料庫,並進行資料分析(Data Analytics),希望能夠預測未來可能會發生的事件。

關於資料分析師的首要任務,就是進行菜渣集中,收容資料是重要的第一步。

資料湖

關於資料湖的定義中,包含了:

  • 可以容納各種類型的資料,或是檔案。
  • 可以存放大量資料,TB ~ PB 那麼大。

能滿足上述兩點的,幾乎就是在講 Amazon S3

S3 的特性

  1. 限制 (Limitations, Restrictions): 參考資料
    • 每個帳號預設只能開 100 個儲存貯體 (Buckets) ~ 可以填單申請提高至多 1000 個。
    • Bucket 命名後,不能再改名,只能刪除後重建。
    • 在同一個 Region 下,不能和別的 Bucket 撞名。
  2. High Availability
    • 高可用性是基於 S3 的檔案會存放在不同的 AZ,以避免單點故障(SPoF, Single Point of Failure)。
  3. 想要省錢
  4. 特殊用途
    • 以 Amazon S3 Express One Zone 把資料集中在同一個 AZ,以達到更快速地存取。

    只放一份、還擺在相同的 AZ,費用變成半價,延遲降低、變快速度變成十倍

結論

  • 我認為今天這些東西比較偏向背誦科目,是用過還不見得會記住的,所以用理解概念的方式來說明。
  • 關於時不時就會聽到 Amazon S3 設計可超過 99.999999999% (11 個 9) 的資料耐用性。 記住「十一個九的耐用性」,應該就差不多了。 反正一個 AZ 失效機率大概是 0.0005,條件機率,三個 AZ 一起失效的機率就是 0.000000000125,所以機率就是 1 - 0.000000000125

上一篇
【Day 2】 Data Engineering 的專有名詞與定義
下一篇
【Day 4】 (Big) Data Analytics 資料分析的範疇
系列文
老闆,外帶一份 AWS Certified Data Engineer30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言