.

iT邦幫忙

2023 iThome 鐵人賽

DAY 8
0
AI & Data

吵什麼 AI 煉金術?!你家有礦嗎?(資料領域必知的 30 個詞彙)系列 第 8

Data Lake 資料湖泊( 與一隻黃色小象 Hadoop 的時代)

  • 分享至 

  • xImage
  •  

終於講到我的 Home turf(主場、地盤)!(什麼叫做主場?就是沒 Google search 的前置作業需求/images/emoticon/emoticon15.gif

2015 年我踏入大數據領域,在此之前我只熟悉關聯式資料庫。當我認識 Hadoop 的時候,我心中大喊「這不就是窮人版超級電腦嗎?」一個可以從算 100 萬筆資料,水平擴充成算 100 億筆資料的系統,我越研究覺得越有意思。

窮人版超級電腦!

過去 PB 量級資料分析領域由超級電腦獨佔、被特定廠商鎖定,造價動輒幾億美金。2003年 Google 發表雲端運算論文,Doug Cutting 這位 Hadoop 之父參考該論文,於 2006 年開發出使用 x86 伺服器搭建巨量資料儲存與運算的系統架構,並且將智慧結晶留在開源陣營,許多應用該架構的開源專案如雨後春筍、蓬勃發展,最終解放資料價值到各個領域,AI 時代加速來臨。

https://ithelp.ithome.com.tw/upload/images/20230911/20161790rvUPgGQeJZ.jpg

圖片說明: 2017 年 Dong Cutting 訪台與筆者合影(圖片來源:炬識科技)

Hadoop 是設計來處理與應用巨量的結構化、半結構化與非結構化資料。基於成本與規模擴充便利性的考量,擁有分散式儲存架構與平行運算機制的 Hadoop,是用來實現 Enterprise Data Lake 的首選,有以下特性:

  1. 降低資料儲存的成本(開放式硬體規格)
  2. 水平擴充資料儲存與運算力,省去資料太多就要遷移資料與應用系統的痛苦
  3. 開源不會被特定廠商鎖定
  4. 按需要堆棧服務元件:叢集規模與服務任意組合
  5. 完善的元件生態系:Hadoop 生態系包含巨量資料儲存(HDFS)、分散式系統資源調度(Yarn) 、 分散式系統協調服務(Zookeeper)、NoSQL(Hbase)、批次資料處理(Hive)、串流資料處理(Kafka)、排程管理(Oozie)、  文字搜尋(Solr)、 事件處理(Flume)、資料分析機器學習(Spark)…高達 30 多種元件,幾乎把不需要遵守 ACID 原則的體系給全包了。

企業一定要建置資料湖泊嗎?

多年業界經驗,我觀察客戶建置並「持續」維運資料湖泊,有以下原因:

  1. 有超過 30 TB 的資料,放資料倉儲太貴,放儲存設備又無法分析
  2. 有同時分析結構與非結構原始資料的需求
  3. 希望在同一個系統內,區分冷熱資料區

用 Hadoop 實作資料湖泊是否過時了?

多年前就有「Hadoop 已死」的流言蜚語,但是我們仍有接到新建置的需求。在這個技術更迭加速度的時代,Hadoop 今年已迎來第 17 個年頭,雖然沒有變成普及型產品,但在專屬領域仍是活躍。我覺得在以下條件 Hadoop 仍有其價值:

  1. 基於資安與監管考慮,需要建置純地端巨量資料平台。
  2. 希望在同一個資料平台內提供多種資料服務,例如有文字搜尋需求、也有支援 SQL 查詢的需要。

還有一個因素,讓 Hadoop 可能還有多年前景:Hadoop 的生態系在持續改變中。

資料儲存層的改變是最徹底的,Ozone 的出現確實宣告 HDFS 將要逐漸功成身退了。
至於資料湖泊的命運就很坎坷了,請看 Data Lakehouse (資料湖倉),順便淺談 Apache Iceberg


上一篇
Business Intelligence 商業智慧
下一篇
Massive Parallel Processing(MPP vs. Hadoop)
系列文
吵什麼 AI 煉金術?!你家有礦嗎?(資料領域必知的 30 個詞彙)30
.
圖片
  直播研討會

尚未有邦友留言

立即登入留言