iT邦幫忙

2021 iThome 鐵人賽

DAY 7
0
AI & Data

Data on Air - 以AWS服務實作雲端數據分析系列 第 7

DAY 7 Big Data 5Vs – Volume(容量) — Lake House & Database

  • 分享至 

  • xImage
  •  

如果有疑惑說:資料湖與資料倉儲該如何選擇呢?
其實它們並不衝突。
因為存放的資料不同,可以做的分析也不同,所以資料湖更像是資料倉儲的延伸,感謝分析技術的進步,現在可以利用許多新的框架來分析更多之前所無法觸及的半結構與非結構化資料,豐富了資料生態。資料湖與資料倉儲之間比較像是彼此補充了各自所看不到的資訊,讓資料分析人員可以有更多元的資訊產生不一樣的洞見。

也因為這樣的分析趨勢,才會有像Redshift Spectrum這類的功能推出。除此之外,AWS更提出了一個完整的解決方案架構(如下圖)稱為 — Lake House*。就像是形容緊鄰著湖邊的倉庫,這個架構整合了 AWS S3 與 Amazon Redshift中的資料,並將資料儲存與資料處理系統解耦,讓資料能更保有它的準確性。
https://ithelp.ithome.com.tw/upload/images/20210919/20140161lbZRewvMGb.jpg
簡單介紹由下至上依序分為五層:
原始資料產生後進入 擷取層→儲存層→目錄層→處理層→消費層 最後產生的分析結果
從這個架構一層層來認識各種服務也是個了解雲端平台的好方法,也推薦給不同學習習慣的人。
其中的服務之後也多數會談到。

除了目前為止提到的資料湖data lake、資料倉儲data warehouse等大容量解決方案,當然相對較小容量的資料庫也是重要的儲存系統。資料庫Database仍然是許多網頁或應用程式背後蒐集資料最典型與常見的串接架構。AWS上有提供各種資料庫供使用者靈活選擇,它們的不同主要是因為各自適用的資料結構不同。接下來幾天會介紹這些資料結構與它們的資料庫。

*Lake House+圖片來源( https://aws.amazon.com/tw/blogs/big-data/build-a-lake-house-architecture-on-aws/ )


上一篇
DAY 6 Big Data 5Vs – Volume(容量) – Redshift Spectrum
下一篇
DAY 8 Big Data 5Vs – Velocity(多樣性) 資料結構
系列文
Data on Air - 以AWS服務實作雲端數據分析30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言