iT邦幫忙

第 12 屆 iThome 鐵人賽

DAY 26
0
自我挑戰組

資料蒐集與分散式運算 30 天系列 第 26

[Day 26] Hadoop 生態系

歡迎來到第 26 天,今天要分享一個 Hadoop 中很重要的一個概念 - MapReduce。

接下來的分散式運算篇章中主要會是以學習筆記的形式呈現,如果是以Hadoop 來說主要會是以它的三大元素作為目標。

Hadoop 的三大模組

說到Hadoop,大家下意識的會想到赫赫有名的Spark,但Spark 是到後期對於MapReduce 的替代方案,等等什麼那什麼是 MapReduce?這就要說到Hadoop 最原生的三個模組

  • MapReduce
  • HDFS
  • YARN

MapReduce

在目前學習到的資料中,MapReduce 是最重要的邏輯運算中心,所有的運算邏輯都會發生在這個模組當中。

HDFS

運算就要有資料,資料就要有儲存的空間與方式,HDFS(Hadoop Distributed File System) 就是一個分散式檔案管理系統,當然在現在龐大的生態系中也有其他的結局方案,但他是最一開始的結局方案。

YARN

當分散式運算的架構越來越大時,就需要一個管理系統,而在 Hadoop 中的 YARN(Yet Another Resource Negotiator) 就是一個資源的管理系統,讓每個節點的效能可以最大化。

以上三個模組就是Hadoop 生態系裡面重要的元素,也會是最後幾天的學校目標,那麼今天就先到這裡!我們明天 MapReduce 見!


上一篇
[Day 25] Hadoop 歷史與安裝
下一篇
[Day 27] MapReduce
系列文
資料蒐集與分散式運算 30 天30

尚未有邦友留言

立即登入留言