iT邦幫忙

2023 iThome 鐵人賽

DAY 2
0

提到資料工程,怎麼擺資料是一大課題。今天就跟大家介紹一下AWS鼎鼎大名的S3資料儲存服務。

可以放多大資料上去?
AWS S3提供無限擺放資料的空間,但單一筆上傳的檔案不可超過5TB

資料怎麼擺?
資料擺放的規則是透過Bucket和Prefix來定義。可以想像Bucket是擺放某一類資料的桶子,這個桶子的名稱必須是獨一無二的。舉例來說,我們通常會透過專案名稱來幫桶子命名。而這個桶子下面,我們可以再把資料按照我們的需求,進一步的partition出來。例如,按照年月日,把資料做擺放。年月日就成為了我們在S3 Bucket下的Prefix。這一步很重要,因為後續資料的取得會跟我們的Prefix邏輯設計很有關係。

資料服務怎麼維護?
S3資料擺放級別(storage class),一共分成以下幾類,解釋如下:

  • Standard: S3的標準資料儲存服務,費用也是最高的。
  • Standard IA: IA表示Infrequent Access,如果取資料頻率不高,可以選擇這個方案。
  • One-Zone IA: One-Zone的意思表示資料只會存放在某一個資料中心,一旦該資料中心無法運作,資料就無法取得。
  • Glacier:主要提供資料封存使用。
  • Intelligent Tier: 透過AI來幫我們找出最合適的資料維護級別。

無論放在哪個級別,資料的durability都可以達到11個9的等級,表示99.999999999%機率資料不會遺失。而另外一個服務指標availability,則是表示我們今天想要取資料,是否當下就可以拿到資料。

S3資料級別的生命週期
透過生命週期的管理,我們可以設定時間來做資料級別的轉換。例如,資料原本存放在Standard級別,經過60天後,調整為Standard IA。


上一篇
Day 1 海賊們的考照之路航海圖
下一篇
Day 3 第一站 Data Engineering - S3 Security
系列文
夥伴們!一起航向AWS Certified Machine Learning Specialty的偉大航道吧!30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言