終於講到我的 Home turf(主場、地盤)!(什麼叫做主場?就是沒 Google search 的前置作業需求)
2015 年我踏入大數據領域,在此之前我只熟悉關聯式資料庫。當我認識 Hadoop 的時候,我心中大喊「這不就是窮人版超級電腦嗎?」一個可以從算 100 萬筆資料,水平擴充成算 100 億筆資料的系統,我越研究覺得越有意思。
過去 PB 量級資料分析領域由超級電腦獨佔、被特定廠商鎖定,造價動輒幾億美金。2003年 Google 發表雲端運算論文,Doug Cutting 這位 Hadoop 之父參考該論文,於 2006 年開發出使用 x86 伺服器搭建巨量資料儲存與運算的系統架構,並且將智慧結晶留在開源陣營,許多應用該架構的開源專案如雨後春筍、蓬勃發展,最終解放資料價值到各個領域,AI 時代加速來臨。
圖片說明: 2017 年 Dong Cutting 訪台與筆者合影(圖片來源:炬識科技)
Hadoop 是設計來處理與應用巨量的結構化、半結構化與非結構化資料。基於成本與規模擴充便利性的考量,擁有分散式儲存架構與平行運算機制的 Hadoop,是用來實現 Enterprise Data Lake 的首選,有以下特性:
多年業界經驗,我觀察客戶建置並「持續」維運資料湖泊,有以下原因:
多年前就有「Hadoop 已死」的流言蜚語,但是我們仍有接到新建置的需求。在這個技術更迭加速度的時代,Hadoop 今年已迎來第 17 個年頭,雖然沒有變成普及型產品,但在專屬領域仍是活躍。我覺得在以下條件 Hadoop 仍有其價值:
還有一個因素,讓 Hadoop 可能還有多年前景:Hadoop 的生態系在持續改變中。
資料儲存層的改變是最徹底的,Ozone 的出現確實宣告 HDFS 將要逐漸功成身退了。
至於資料湖泊的命運就很坎坷了,請看 Data Lakehouse (資料湖倉),順便淺談 Apache Iceberg