iT邦幫忙

2025 iThome 鐵人賽

DAY 6
0

簡介

在上篇 DAY5 知識之章 - Apache Iceberg 中,我們介紹了 Iceberg 的詳細內容與應用場景。

本篇我們要來介紹 AWS Lakehouse 的儲存基石 Amazon S3。

什麼是 Amazon S3?

Amazon S3 (Simple Storage Service) 是 AWS 在 2006 年推出的雲端物件儲存服務,以 高擴展性、高可用性與高耐用性 聞名。從數 KB 的小圖片到數 TB 的大型影片,都能被穩定儲存並快速存取。

核心概念:物件儲存 (Object Storage)

  • 資料不是以傳統檔案/資料夾方式存在,而是被包裝成「物件 (Object)」。
  • 每個物件存放於「桶 (Bucket)」中,並附帶 唯一 ID中繼資料 (Metadata)
  • 這種設計讓資料存取更靈活,並能支援龐大規模的數據湖架構。

儲存限制

  • 單一物件最大上限:5 TB。
  • 單一 PUT 上傳大小限制:5 GB。
  • 如果檔案超過 5 GB,就必須使用 Multipart Upload (分段上傳) 的方式來完成。
  • 最小物件大小:沒有嚴格限制(可以是幾個 byte),但如果存放大量超小檔案(例如 KB 級),會造成儲存成本與查詢效能上的浪費。

為何重要?

S3 不只是儲存檔案的地方,它更像是現代數據平台的原料倉庫

  • 資料科學、分析與機器學習的基礎來源。
  • 資料湖 (Data Lake) 與 Lakehouse 架構的核心。

👉 Takeaway:Amazon S3 透過簡單的物件儲存,奠定了雲端數據生態系的基礎,是大數據與 AI 時代最重要的「數據原料庫」。


S3 的技術優勢

1. 無限擴展性

  • 不需要預先規劃容量,隨用隨增。
  • 適合海量數據的儲存,例如:音樂數據、電商數據、公共交通數據等巨量資料。
  • 且隨著儲存量越高,每 GB 的儲存成本會隨之降低。

2. 高耐用性與可用性

3. 多樣化的儲存類型

Amazon S3 儲存類別 提供多個儲存類別,可根據你的檔案和使用場景,選擇不同類型的存放方式

儲存類別 適用場景 特點
S3 Standard 熱數據(常存取) 預設、延遲低
S3 Intelligent-Tiering 存取模式不確定 自動在熱/冷層切換
S3 Standard-IA 不常存取但仍需快速存取 成本比 Standard 低
S3 Glacier 歸檔、冷資料 存取需幾分鐘~幾小時
S3 Glacier Deep Archive 長期備份 成本最低,存取需數小時

4. 安全與治理

  • 伺服器端加密(SSE-S3, SSE-KMS)。
  • IAM 權限控管。
  • 可與 Lake Formation 整合,提供細粒度存取控制。

5. 無縫整合

  • 搭配 Athena:直接查詢 S3 上資料。
  • 搭配 Lambda:上傳檔案即可觸發自動處理。
  • 搭配 Glue:自動編目與轉換格式。

👉 Takeaway:S3 不只是「儲存桶」,而是 AWS 生態系的數據中樞。


S3 的優劣勢分析

面向 優勢 劣勢
成本 按量付費,Standard 約 $0.023/GB/月,非常便宜 跨區域傳輸成本高
彈性 支援 JSON、CSV、Parquet 等格式 S3 本身不支援直接的 SQL 查詢,需再搭配其他服務
整合 與 AWS 生態無縫結合 若治理不足,容易變成「Data Swamp」

👉 Takeaway:S3 成本效益高,但要避免數據治理不足造成「數據沼澤」,仍需要在儲存前,思考儲存架構的設計,以便於後續可更完善的搭配權限管控服務、運算引擎、其餘 Serverless 服務的應用場景。


結論與建議

Amazon S3 不只是檔案儲存,而是建構 數據湖倉 (Data Lakehouse) 的起點。

在實務應用中,可參考以下內容做初步規劃:

  1. 以架構為核心思考:將 S3 視為所有數據的集散地,例如從一開始就規劃清楚資料分層(Raw / Bronze / Silver / Gold)。
  2. 規劃存放策略:接著建立合理的 分區設計 (Partitioning)、檔案大小控制(數百 MB 為佳),提升後續查詢與處理效能。
  3. 結合治理工具:搭配 Glue Catalog、Lake Formation 進行權限與目錄管理,確保數據一致性與安全性。
  4. 避免 Data Swamp:持續維護資料品質與結構,讓數據湖能真正支持分析與機器學習,而不是單純的檔案堆積。

👉 Takeaway:S3 是基石,但關鍵在於 治理與規劃,才能讓它發揮最大價值。


下篇預告:探索「雲基礎之章」

簡易回顧:

透過 Day2-Day6 的介紹,我們已經掌握到本系列後續將建立的內容,下一篇讓我們一起進入「雲基礎之章」的章節,首先讓我們來透過 「DAY7 雲端基礎章:IAM 基礎觀念篇」 初探 AWS 的角色權限治理服務 IAM 。


參考資料

[1] What is Amazon S3?
[2] Amazon S3 定價
[3] 多個可用區 (AZ)
[4] SLA 信任度
[5] Amazon S3 儲存類別


上一篇
DAY5 知識之章-Apache Iceberg
下一篇
DAY7 雲端基礎章-IAM 基礎概念篇
系列文
動漫宅的 30 天 AWS Lakehouse 修行日誌7
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言