提到資料工程,怎麼擺資料是一大課題。今天就跟大家介紹一下AWS鼎鼎大名的S3資料儲存服務。
可以放多大資料上去?
AWS S3提供無限擺放資料的空間,但單一筆上傳的檔案不可超過5TB。
資料怎麼擺?
資料擺放的規則是透過Bucket和Prefix來定義。可以想像Bucket是擺放某一類資料的桶子,這個桶子的名稱必須是獨一無二的。舉例來說,我們通常會透過專案名稱來幫桶子命名。而這個桶子下面,我們可以再把資料按照我們的需求,進一步的partition出來。例如,按照年月日,把資料做擺放。年月日就成為了我們在S3 Bucket下的Prefix。這一步很重要,因為後續資料的取得會跟我們的Prefix邏輯設計很有關係。
資料服務怎麼維護?
S3資料擺放級別(storage class),一共分成以下幾類,解釋如下:
無論放在哪個級別,資料的durability都可以達到11個9的等級,表示99.999999999%機率資料不會遺失。而另外一個服務指標availability,則是表示我們今天想要取資料,是否當下就可以拿到資料。
S3資料級別的生命週期
透過生命週期的管理,我們可以設定時間來做資料級別的轉換。例如,資料原本存放在Standard級別,經過60天後,調整為Standard IA。