首先先感謝讀到今天的你們,本篇是 30 天文章挑戰的最後一篇文章,一開始我們從一份 MyAnimeList 動漫資料集出發,旅途中我們使用了不少 AWS 服務,透過這些服務,我們建構出了屬於自己的 Anime Analytics Data Lakehouse 架構。
本篇作為系列的最終章,我們將:
在這 30 天的 AWS Lakehouse 修行中,整個系列我們分為以下六個章節,最終建置成一個可用的數據架構。
章節 | 範圍 | 主題名稱 | 內容說明 |
---|---|---|---|
知識之章 | Day1–Day6 | 學習資料領域基礎知識 | 本階段以「資料工程的全貌」為出發點,了解資料在企業中的流動方式。內容包含 Data Lake 與 Data Warehouse 的差異、ETL 與 ELT 的概念、常見資料格式(CSV、Parquet、Avro)、以及 AWS 在資料生態系中的角色定位。這一章的目的是建立完整的理論基礎,讓後續實作能有明確的方向。 |
雲基礎之章 | Day7–Day14 | 建立雲端環境與資料進入管道 | 進入實作階段,從建立 AWS 帳號、IAM 權限分組,到架構 VPC、S3 儲存桶。接著實作 Lambda、EventBridge 事件觸發,完成「上傳檔案 → 自動觸發流程」的雲端事件流。這個階段的重點是學會如何安全且自動地讓資料進入 Data Lake,是整個架構的起點。 |
淬鍊之章 | Day15–Day23 | 使用 AWS Glue 進行資料轉換與 Iceberg 管理 | 核心章節,聚焦於資料的清洗、轉換與結構化。透過 Glue Job (PySpark) 將原始資料轉為 Parquet,並導入 Bronze、Silver、Gold 三層架構。使用 Workflow 串聯多個 ETL Job,加入 Backfill 機制補跑歷史批次,同時採用 Iceberg 管理表格元數據,使資料具備版本控制、Schema 演進與高可追蹤性。這階段完成整個 Data Pipeline 的自動化與穩定性。 |
視覺之章 | Day24–Day27 | QuickSight 視覺化與 Lake Formation 權限治理 | 將已淬鍊完成的資料導入分析層。透過 QuickSight 建立互動式儀表板,展示動畫資料的評分、分類、趨勢分析。這一章不僅強化資料安全,也讓數據真正能被業務使用。 |
監控之章 | Day28–Day29 | 建立監控與稽核機制 | 導入 CloudWatch、CloudTrail 進行系統監控與安全稽核。CloudWatch 負責 Glue、Lambda、EventBridge 的執行紀錄與錯誤告警;CloudTrail 監控 S3 存取行為與管理操作,確保每次資料上傳、修改都有跡可循。此階段的目標是讓整個 Data Lakehouse 架構具備可觀測性與可審計性,邁向企業級運維標準。 |
回顧之章 | Day30 | 成本評估與整體回顧 | 最後回顧整體實作過程、評估 AWS 各服務的成本、學習心得。 |
Step1:開啟 Root 帳號,確認帳單
Step2:9 月份帳單實際收款 0.4 美金
Step3:10 月份帳單預計收款 2.01 美金
Step4:10 月份收款細項確認
Step5:接著可以到免費方案的頁面確認哪些服務是沒收費的,以及實際的使用量
Step6:刪除 QuickSight 帳號
找到帳戶設定
確認刪除帳號
最後要出現刪除帳號通知
最後提醒:結束實作後,請記得把所有定時排程(Glue Scheduler、EventBridge)、收費服務 (S3、QuickSight 帳號) 做關閉予刪除,避免每月收到更多的帳單。
總結:
在這 30 天的鐵人賽過程中,我們實際學習了許多 AWS 雲端上的數據相關應用,透過這一系列的文章,我們已經實際走完了一遍基礎的雲數據處理,當然還有許多尚未使用到的雲服務以及更深層的服務應用原理,由於時間的關係沒有辦法介紹的很詳細,希望明年還有機會再撰寫更深的實作系列文章。
挑戰:
由於沒有事先撰寫很多的文章做庫存,後續就變成日更,其實每天在操作上遇到許多的問題:
每天撰寫時其實非常的懊惱與痛苦,有時候卡住甚至寫到凌晨才寫完文章,我想感謝不斷鼓勵我的隊員們,也想感謝努力撰寫每一篇文章的自己。
推薦:
在此推薦一下我隊員們的文章,他們的主題也都非常的有趣,歡迎大家瀏覽!
隨著資料科學與雲端技術的進步,服務的速度與穩定性不斷提升,同時,儲存與運算成本 也逐年下降,使資料工程相關服務建置門檻比以往更低。
在雲端環境的支援下,我們能更專注在「資料本身的價值」,而非基礎設施的維護:
未來的方向,將不只是「在雲端處理資料」,而是透過 自動化、智能化與治理化 的整合,打造能自我監控、自我優化的 雲端資料平台,讓資料真正成為組織決策與創新的核心力量。
再次感謝讀到這裡的你們,謝謝你們的瀏覽,希望未來還能產出更好的文章與大家分享。