DAY6 知識之章-儲存的基石 Amazon S3

2025 iThome 鐵人賽

DAY 6

Build on AWS

動漫宅的 30 天 AWS Lakehouse 修行日誌系列第 6 篇

17th鐵人賽 aws data

AndyChen1127

團隊三陳牛肉吉事堡

2025-09-20 12:12:17

590 瀏覽

分享至

簡介

在上篇 DAY5 知識之章 - Apache Iceberg 中，我們介紹了 Iceberg 的詳細內容與應用場景。

本篇我們要來介紹 AWS Lakehouse 的儲存基石 Amazon S3。

什麼是 Amazon S3？

Amazon S3 (Simple Storage Service) 是 AWS 在 2006 年推出的雲端物件儲存服務，以 高擴展性、高可用性與高耐用性 聞名。從數 KB 的小圖片到數 TB 的大型影片，都能被穩定儲存並快速存取。

核心概念：物件儲存 (Object Storage)

資料不是以傳統檔案/資料夾方式存在，而是被包裝成「物件 (Object)」。
每個物件存放於「桶 (Bucket)」中，並附帶 唯一 ID 與 中繼資料 (Metadata)。
這種設計讓資料存取更靈活，並能支援龐大規模的數據湖架構。

儲存限制

單一物件最大上限：5 TB。
單一 PUT 上傳大小限制：5 GB。
如果檔案超過 5 GB，就必須使用 Multipart Upload (分段上傳) 的方式來完成。
最小物件大小：沒有嚴格限制（可以是幾個 byte），但如果存放大量超小檔案（例如 KB 級），會造成儲存成本與查詢效能上的浪費。

為何重要？

S3 不只是儲存檔案的地方，它更像是現代數據平台的原料倉庫：

資料科學、分析與機器學習的基礎來源。
資料湖 (Data Lake) 與 Lakehouse 架構的核心。

👉 Takeaway：Amazon S3 透過簡單的物件儲存，奠定了雲端數據生態系的基礎，是大數據與 AI 時代最重要的「數據原料庫」。

S3 的技術優勢

1. 無限擴展性

不需要預先規劃容量，隨用隨增。
適合海量數據的儲存，例如：音樂數據、電商數據、公共交通數據等巨量資料。
且隨著儲存量越高，每 GB 的儲存成本會隨之降低。

2. 高耐用性與可用性

數據會被自動複製到多個可用區 (AZ)，即使單一機房故障，也不會遺失。
提供高度的 SLA 信任度。

3. 多樣化的儲存類型

Amazon S3 儲存類別提供多個儲存類別，可根據你的檔案和使用場景，選擇不同類型的存放方式

儲存類別	適用場景	特點
S3 Standard	熱數據（常存取）	預設、延遲低
S3 Intelligent-Tiering	存取模式不確定	自動在熱/冷層切換
S3 Standard-IA	不常存取但仍需快速存取	成本比 Standard 低
S3 Glacier	歸檔、冷資料	存取需幾分鐘～幾小時
S3 Glacier Deep Archive	長期備份	成本最低，存取需數小時

4. 安全與治理

伺服器端加密（SSE-S3, SSE-KMS）。
IAM 權限控管。
可與 Lake Formation 整合，提供細粒度存取控制。

5. 無縫整合

搭配 Athena：直接查詢 S3 上資料。
搭配 Lambda：上傳檔案即可觸發自動處理。
搭配 Glue：自動編目與轉換格式。

👉 Takeaway：S3 不只是「儲存桶」，而是 AWS 生態系的數據中樞。

S3 的優劣勢分析

面向	優勢	劣勢
成本	按量付費，Standard 約 $0.023/GB/月，非常便宜	跨區域傳輸成本高
彈性	支援 JSON、CSV、Parquet 等格式	S3 本身不支援直接的 SQL 查詢，需再搭配其他服務
整合	與 AWS 生態無縫結合	若治理不足，容易變成「Data Swamp」

👉 Takeaway：S3 成本效益高，但要避免數據治理不足造成「數據沼澤」，仍需要在儲存前，思考儲存架構的設計，以便於後續可更完善的搭配權限管控服務、運算引擎、其餘 Serverless 服務的應用場景。

結論與建議

Amazon S3 不只是檔案儲存，而是建構 數據湖倉 (Data Lakehouse) 的起點。

在實務應用中，可參考以下內容做初步規劃：

以架構為核心思考：將 S3 視為所有數據的集散地，例如從一開始就規劃清楚資料分層（Raw / Bronze / Silver / Gold）。
規劃存放策略：接著建立合理的 分區設計 (Partitioning)、檔案大小控制（數百 MB 為佳），提升後續查詢與處理效能。
結合治理工具：搭配 Glue Catalog、Lake Formation 進行權限與目錄管理，確保數據一致性與安全性。
避免 Data Swamp：持續維護資料品質與結構，讓數據湖能真正支持分析與機器學習，而不是單純的檔案堆積。

👉 Takeaway：S3 是基石，但關鍵在於 治理與規劃，才能讓它發揮最大價值。

下篇預告：探索「雲基礎之章」

簡易回顧：

透過 Day2-Day6 的介紹，我們已經掌握到本系列後續將建立的內容，下一篇讓我們一起進入「雲基礎之章」的章節，首先讓我們來透過「DAY7 雲端基礎章：IAM 基礎觀念篇」初探 AWS 的角色權限治理服務 IAM 。

參考資料

[1] What is Amazon S3?
[2] Amazon S3 定價
[3] 多個可用區 (AZ)
[4] SLA 信任度
[5] Amazon S3 儲存類別

DAY5 知識之章-Apache Iceberg

DAY7 雲端基礎章-IAM 基礎概念篇

系列文

動漫宅的 30 天 AWS Lakehouse 修行日誌共 30 篇

RSS系列文訂閱系列文

10 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19838 篇

完賽人數

528 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

動漫宅的 30 天 AWS Lakehouse 修行日誌系列 第 6 篇