iT邦幫忙

2023 iThome 鐵人賽

DAY 8
0
AI & Data

吵什麼 AI 煉金術?!你家有礦嗎?(資料領域必知的 30 個詞彙)系列 第 8

Data Lake 資料湖泊( 與一隻黃色小象 Hadoop 的時代)

  • 分享至 

  • xImage
  •  

終於講到我的 Home turf(主場、地盤)!(什麼叫做主場?就是沒 Google search 的前置作業需求/images/emoticon/emoticon15.gif

2015 年我踏入大數據領域,在此之前我只熟悉關聯式資料庫。當我認識 Hadoop 的時候,我心中大喊「這不就是窮人版超級電腦嗎?」一個可以從算 100 萬筆資料,水平擴充成算 100 億筆資料的系統,我越研究覺得越有意思。

窮人版超級電腦!

過去 PB 量級資料分析領域由超級電腦獨佔、被特定廠商鎖定,造價動輒幾億美金。2003年 Google 發表雲端運算論文,Doug Cutting 這位 Hadoop 之父參考該論文,於 2006 年開發出使用 x86 伺服器搭建巨量資料儲存與運算的系統架構,並且將智慧結晶留在開源陣營,許多應用該架構的開源專案如雨後春筍、蓬勃發展,最終解放資料價值到各個領域,AI 時代加速來臨。

https://ithelp.ithome.com.tw/upload/images/20230911/20161790rvUPgGQeJZ.jpg

圖片說明: 2017 年 Dong Cutting 訪台與筆者合影(圖片來源:炬識科技)

Hadoop 是設計來處理與應用巨量的結構化、半結構化與非結構化資料。基於成本與規模擴充便利性的考量,擁有分散式儲存架構與平行運算機制的 Hadoop,是用來實現 Enterprise Data Lake 的首選,有以下特性:

  1. 降低資料儲存的成本(開放式硬體規格)
  2. 水平擴充資料儲存與運算力,省去資料太多就要遷移資料與應用系統的痛苦
  3. 開源不會被特定廠商鎖定
  4. 按需要堆棧服務元件:叢集規模與服務任意組合
  5. 完善的元件生態系:Hadoop 生態系包含巨量資料儲存(HDFS)、分散式系統資源調度(Yarn) 、 分散式系統協調服務(Zookeeper)、NoSQL(Hbase)、批次資料處理(Hive)、串流資料處理(Kafka)、排程管理(Oozie)、  文字搜尋(Solr)、 事件處理(Flume)、資料分析機器學習(Spark)…高達 30 多種元件,幾乎把不需要遵守 ACID 原則的體系給全包了。

企業一定要建置資料湖泊嗎?

多年業界經驗,我觀察客戶建置並「持續」維運資料湖泊,有以下原因:

  1. 有超過 30 TB 的資料,放資料倉儲太貴,放儲存設備又無法分析
  2. 有同時分析結構與非結構原始資料的需求
  3. 希望在同一個系統內,區分冷熱資料區

用 Hadoop 實作資料湖泊是否過時了?

多年前就有「Hadoop 已死」的流言蜚語,但是我們仍有接到新建置的需求。在這個技術更迭加速度的時代,Hadoop 今年已迎來第 17 個年頭,雖然沒有變成普及型產品,但在專屬領域仍是活躍。我覺得在以下條件 Hadoop 仍有其價值:

  1. 基於資安與監管考慮,需要建置純地端巨量資料平台。
  2. 希望在同一個資料平台內提供多種資料服務,例如有文字搜尋需求、也有支援 SQL 查詢的需要。

還有一個因素,讓 Hadoop 可能還有多年前景:Hadoop 的生態系在持續改變中。

資料儲存層的改變是最徹底的,Ozone 的出現確實宣告 HDFS 將要逐漸功成身退了。
至於資料湖泊的命運就很坎坷了,請看 Data Lakehouse (資料湖倉),順便淺談 Apache Iceberg


上一篇
Business Intelligence 商業智慧
下一篇
Massive Parallel Processing(MPP vs. Hadoop)
系列文
吵什麼 AI 煉金術?!你家有礦嗎?(資料領域必知的 30 個詞彙)30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言