iT邦幫忙

2025 iThome 鐵人賽

DAY 8
0
AI & Data

AI 江湖本無路,有了 Data 便有了路系列 第 8

Day 08: 黃色小象的傳奇:Hadoop 如何開啟大數據時代

  • 分享至 

  • xImage
  •  

前言:當數據大到一台電腦裝不下

在前七天的修煉中,我們了解了數據儲存的三種基本容器:資料庫、資料倉儲與資料湖。其中,「資料湖」這個能容納百川、儲存各式原始資料的概念,之所以能實現,很大程度上要歸功於一隻改變了世界的黃色小象 — Hadoop

時間回到 2000 年初期,Google 為了處理數十億網頁的索引,發表了兩篇劃時代的論文:Google File System (GFS)MapReduce。這啟發了 Doug Cutting 等人,最終催生了開源的 Hadoop。它的核心使命只有一個:用一群普通的廉價電腦,組成一個超級叢集,來解決單一伺服器無法處理的龐大數據儲存與運算問題


Hadoop 的兩大獨門絕技

Hadoop 的武功心法主要建立在兩大支柱上:

  1. HDFS (Hadoop Distributed File System) - 分散式儲存
  • 心法: 「化整為零,分散儲存」。當一個巨大的檔案(例如 1TB 的影片)要存入 HDFS 時,它會被切成許多小區塊(例如每個 128MB),然後分散存放到叢集裡的多台電腦上。為了確保安全,每個區塊還會有多份備份,存放在不同的機器上,即使某台電腦硬碟壞了,資料也不會遺失。
  • AI 應用情境: 這正是資料湖的基石。AI 模型訓練需要海量的原始資料,包括 TB 等級的圖片、影片、使用者日誌等非結構化數據。HDFS 提供了低成本、可擴展的儲存方案,讓企業敢於「先存了再說」,為日後的 AI 探索保留了最珍貴的原始礦藏。
  1. MapReduce - 分散式運算
  • 心法: 「眾人拾柴火焰高,在地運算」。當你要對這 1TB 的影片進行分析時(例如計算每個畫面的平均亮度),傳統作法是把 1TB 的檔案從儲存端拉到運算端,網路傳輸會成為巨大瓶頸。MapReduce 的思想正好相反:把運算任務派送到儲存資料的電腦上,讓每台電腦各自處理自己那一小塊資料,最後再將結果彙總起來。
    • Map 階段: 各台電腦就地進行初步計算。
    • Reduce 階段: 一個或多個節點負責將所有 Map 的結果進行最終的合併與計算。

https://ithelp.ithome.com.tw/upload/images/20250916/20112423iRnWVRUJn8.png


黃色小象的歷史定位

儘管 MapReduce 的設計較為僵硬、延遲較高,後來被 Spark 等更高效的記憶體內運算框架所取代,但 Hadoop 的歷史功績是不可抹滅的。

它用開源的力量,將過去只有 Google 等巨頭才能使用的分散式處理技術普及化,真正開啟了「大數據時代」。它所奠定的「儲存與運算分離」、「在地運算」等核心思想,至今仍深深影響著現代資料平台的架構設計。可以說,沒有這隻黃色小象,就沒有我們今天所熟知的資料湖,許多複雜的 AI 應用也將無從談起。


上一篇
Day 07: 視覺化敘事力:讓冰冷數據說出動人故事
下一篇
Day 09: 速度與激情的對決:MPP 架構為何能挑戰 Hadoop?
系列文
AI 江湖本無路,有了 Data 便有了路9
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言