iT邦幫忙

2023 iThome 鐵人賽

DAY 11
0
AI & Data

吵什麼 AI 煉金術?!你家有礦嗎?(資料領域必知的 30 個詞彙)系列 第 11

Data Virtualization 資料虛擬化(vs. Data Warehouse vs. Data Lake)

  • 分享至 

  • xImage
  •  

我第一次看到這個詞彙,就是跟 Data Visualization(資料視覺化) 放在一起,看得眼花。所以花了時間把它搞清楚,頭就不昏了。也要注意別跟 (Server)Virtualization Software 混淆,這個領域是伺服器虛擬化。

資料治理下的資料整合策略

本篇先擱置資料治理議題,後面會談。企業會因為各種原因資料散落在很多不同的系統,如果想要在數位轉型中實現資料驅動決策,就必須整合企業中不同系統的資料。為效能與成本考慮,就會出現是否移動資料(ETL/資料管線)的選擇。我們也可以用這個選擇來區分不同資料系統與資料架構:

  1. 資料移動
    -Data Warehouse
    -Data Lake
    -Data Lakehouse
    -Data Fabric
    -Data Mesh
  2. 資料不移動
    -Data Virtualization
    -Apache Iceberg

因此,資料倉儲與資料湖泊必定需要考慮 ETL/資料管線,資料虛擬化工具則是以不開發 ETL/資料管線為前提的。

商用資料虛擬化工具評比

https://ithelp.ithome.com.tw/upload/images/20230914/20161790FJT459mIGK.png

圖片來源:https://www.techtarget.com/searchitoperations/feature/5-leading-data-virtualization-tools-offer-integration-strategy

因為這種產品在台灣比較不普及,所以我們來探討資料虛擬化工具的功能。上述圖片來源網站的分析方式很好,我就使用它的結構分享我的觀察。

資料不移動的資料虛擬化工具應有的功能

  1. 穿透到各種資料孤島:使用資料現有地的系統資源,因此必須支援各種資料庫系統的介接,且包含所有企業常見 SQL 與 NoSQL,才能免去仍有部分需要資料移動,仍須介入 ETL 或資料管線開發的問題。
    https://ithelp.ithome.com.tw/upload/images/20230914/20161790MxdCsk5t74.png

圖片來源:https://www.altexsoft.com/blog/data-virtualization/

  1. 強大的語法轉譯器:資料不移動繼續保存在遠端,在資料虛擬化工具上操作,但是使用的是資料現有地的系統資源。因此,資料虛擬化工具必然要提供使用者一個通用介面與語法進行資料處理與運用,由資料虛擬化工具去翻譯成不同系統可以接受的語法。
    -資料轉換
    -資料建模
    -資料查詢
  2. 完善的存取權限管理機制:由於資料虛擬化工具的設計邏輯,是讓操作經過轉譯後,讓資料操作行為發生在遠端資料庫系統,這表示資料虛擬化工具需要特別處理資料操作權限。如果我們的資料整合策略是移動資料,資料使用者的權限會設置在移動目的端的系統上(例如資料湖泊),若資料不移動卻有遠端使用者可以操作系統內的資料,有很高機率是共用帳號,因為重新發配資料現有地系統的帳號,給資料虛擬化工具的所有使用者並不合乎效益。因此,資料虛擬化工具勢必要在其系統內另外處理資料與權限的匹配問題。

導入資料虛擬化不等於完成資料治理

資料虛擬化或許是在實踐資料治理時,資料整合策略的一種選擇,卻缺少資料目錄或資料品質這一類的功能。有部分原廠是因為本身就有資料整合產品,因此有資料品質功能,並非資料虛擬化工具應該有資料品質功能。這一段我們會在 Data Governance(資料治理)篇細說。

是否一定要導入資料虛擬化工具?

回到本質問題。

資料虛擬化是一種資料整合策略的選擇。

資料移動與不移動,需要考慮:

  1. 原始資料規模
  2. 原始資料變異性
  3. 來源資料系統多樣性
  4. 資料現有地系統的負載能力
  5. 資料應用場景多樣性:這個最是關鍵

如果有個企業資料庫系統就是那兩種,資料應用場景也很單純,加上資料現有地系統的負載能力還很充裕。選擇資料虛擬化工具應該是高效益的。


上一篇
Data Visualization 資料視覺化(vs. BI 商業智慧)
下一篇
Data Pipeline 資料管線(vs. ETL/ETL Pipeline)
系列文
吵什麼 AI 煉金術?!你家有礦嗎?(資料領域必知的 30 個詞彙)30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言