在上篇 DAY5 知識之章 - Apache Iceberg 中,我們介紹了 Iceberg 的詳細內容與應用場景。
本篇我們要來介紹 AWS Lakehouse 的儲存基石 Amazon S3。
Amazon S3 (Simple Storage Service) 是 AWS 在 2006 年推出的雲端物件儲存服務,以 高擴展性、高可用性與高耐用性 聞名。從數 KB 的小圖片到數 TB 的大型影片,都能被穩定儲存並快速存取。
S3 不只是儲存檔案的地方,它更像是現代數據平台的原料倉庫:
👉 Takeaway:Amazon S3 透過簡單的物件儲存,奠定了雲端數據生態系的基礎,是大數據與 AI 時代最重要的「數據原料庫」。
Amazon S3 儲存類別 提供多個儲存類別,可根據你的檔案和使用場景,選擇不同類型的存放方式
儲存類別 | 適用場景 | 特點 |
---|---|---|
S3 Standard | 熱數據(常存取) | 預設、延遲低 |
S3 Intelligent-Tiering | 存取模式不確定 | 自動在熱/冷層切換 |
S3 Standard-IA | 不常存取但仍需快速存取 | 成本比 Standard 低 |
S3 Glacier | 歸檔、冷資料 | 存取需幾分鐘~幾小時 |
S3 Glacier Deep Archive | 長期備份 | 成本最低,存取需數小時 |
👉 Takeaway:S3 不只是「儲存桶」,而是 AWS 生態系的數據中樞。
面向 | 優勢 | 劣勢 |
---|---|---|
成本 | 按量付費,Standard 約 $0.023/GB/月,非常便宜 | 跨區域傳輸成本高 |
彈性 | 支援 JSON、CSV、Parquet 等格式 | S3 本身不支援直接的 SQL 查詢,需再搭配其他服務 |
整合 | 與 AWS 生態無縫結合 | 若治理不足,容易變成「Data Swamp」 |
👉 Takeaway:S3 成本效益高,但要避免數據治理不足造成「數據沼澤」,仍需要在儲存前,思考儲存架構的設計,以便於後續可更完善的搭配權限管控服務、運算引擎、其餘 Serverless 服務的應用場景。
Amazon S3 不只是檔案儲存,而是建構 數據湖倉 (Data Lakehouse) 的起點。
在實務應用中,可參考以下內容做初步規劃:
👉 Takeaway:S3 是基石,但關鍵在於 治理與規劃,才能讓它發揮最大價值。
簡易回顧:
透過 Day2-Day6 的介紹,我們已經掌握到本系列後續將建立的內容,下一篇讓我們一起進入「雲基礎之章」的章節,首先讓我們來透過 「DAY7 雲端基礎章:IAM 基礎觀念篇」 初探 AWS 的角色權限治理服務 IAM 。
[1] What is Amazon S3?
[2] Amazon S3 定價
[3] 多個可用區 (AZ)
[4] SLA 信任度
[5] Amazon S3 儲存類別