iT邦幫忙

2024 iThome 鐵人賽

DAY 14
0

這篇針對 Data Warehouse 的名詞做些解釋,和先前提到的名詞進行比較。

概念

  1. 「資料湖」和「資料倉庫/倉儲」的差異是什麼?
  2. 先說資料湖
    • 先前不斷地說「資料湖」就是「菜渣集中」,即是因為資料湖一詞本身代表的是「集中管理」散落的孤島的資料、打破藩籬。 難保證存放在資料湖裡面的東西的品質、格式。 很多東西只是先存放起來,還沒整理過的。
    • 資料湖中可能包含一些檔案,如「非結構化資料」的圖檔pptx投影片xls報表網頁影片⋯⋯
    • 資料湖中也有可能含有一些「結構化資料」,如出生死亡人口csv檔
  3. 再來談資料倉儲的定義
    • 來自交易處理系統、操作資料庫和企業營運應用程式的關聯式資料。
    • 白話文就是: 可以直接拿來畫 BI (常譯作:商業智慧 / 全文:Business Intelligence) 的資料。
    • 重點:只能是結構化資料、而且都是消化過的,通常不會很佔空間
    • 有些會特別強調 BI報表 的差異:
      • BI 比較智慧
      • BI 有可視化的圖、直覺易懂
      • 報表都是數字和表格、不智慧、不直覺、old school、not fancy

AWS 提出的「解決方案」

  • AWS 如何協助滿足您的資料儲存需求?
  • AWS 提供最廣泛的分析服務選擇,可滿足您的所有資料分析需求。我們讓各種規模的產業和組織,能夠利用資料來重塑其業務。下面是如何使用 AWS 的一些範例:
    • 使用 Amazon Redshift 來滿足您的資料倉儲和資料市集需求。在操作資料庫、資料湖、資料倉儲和數千個第三方資料集中,對複雜的擴展資料執行即時與預測性分析,以取得整合式洞察。您可以輕鬆地自動建立、訓練和部署機器學習模型。
    • 使用 AWS Lake Formation,在幾天內即可建置、管理和保護資料湖。從您所有的資料來源快速匯入資料,然後在集中式資料目錄中加以說明及管理。
    • 使用 Amazon S3,針對大數據分析、人工智慧、機器學習和高效能運算應用程式建置自訂資料湖。

結論

  • 簡單的總結: 資料倉儲這一塊,已經是消化過的、處理過的資料,可以拿來產美美報表了。 例如產出「全國各里超商取貨購買商品分佈圖/ geospatial charts」、「疫情確診人數與銷售額關係/折線圖」之前,所需用到的資料。
  • 誰會看? 給老闆、CEO、決策者之類成功人士看的圖表。
  • 考試的時候,如果問到如何實現,只有兩個常見的選項「Amazon Redshift」和「AWS Lake Formation」
  • 在後續看到題目後再進行補充

上一篇
【Day 13】 NoSQL 非關連式資料庫的基本概念
下一篇
【Day 15】 做題庫小試身手 - 2
系列文
老闆,外帶一份 AWS Certified Data Engineer30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言