[Data Science 到底是什麼從一個完全外行角度來看][07]更深入看看Hadoop裡面的YARN和HDFS

2018 iT 邦幫忙鐵人賽

DAY 7

Data Technology

Data Science 到底是什麼 - 從一個完全外行角度來看系列第 7 篇

[Data Science 到底是什麼從一個完全外行角度來看][07]更深入看看Hadoop裡面的YARN和HDFS

2018鐵人賽 data science 資料科學 hadoop

Alan Tsai

團隊2018 新年快樂

2017-12-25 21:31:09

4181 瀏覽

分享至

圖片來源： https://pixabay.com/en/books-spine-colors-pastel-1099067/ 和 https://pixabay.com/en/math-blackboard-education-classroom-1547018/

在上一篇（[06]建立Hadoop環境 -下篇）把hadoop pseudo-distributed mode整個建立了起來，在這個過程中有透過 jps看到啟動的時候有5個process：

NameNode
SecondaryNameNode
ResourceManager
NodeManager
DataNode
這些process分別是yarn和HDFS執行起來的process，其中Master會有前 3個而slave有後 2個

這篇將會對於這幾個問題做一些介紹。

這篇提到的架構屬於Hadoop 2.x 版本的內容，Hadoop 3 之後有所變動。

這篇將延續上篇的環境，把Hadoop建立上去，並且讓Hadoop跑一個hello world的範例。

同步發表於我的部落格：http://blog.alantsai.net/2017/12/data-science-series-07-deeper-look-at-yarn-and-hdfs-in-hadoop.html (部落格的格式會漂亮一些，ithome不支援html好不方便）

Hadoop Cluster架構

在介紹幾個jps之前，需要了解Hadoop Clusted的架構。

Hadoop屬於Client/Server架構，基本上會有一個Master，多個slave。

因為Master很重要，所以2.x版本可以為master做High Availability和Federation。

在上一篇建立的屬於 pseudo-distributed mode，換句話說Master和Slave都是同一台，所以才看到了5個process。

以下圖來說，是一個Master配上兩個Slave。master和slave裡面又可以分開兩層：MapReduce 和 HDFS 層

不同層的內容。來源：http://saphanatutorial.com/how-yarn-overcomes-mapreduce-limitations-in-hadoop-2-0/

注意，這邊的MapReduce層用的是Hadoop 1.x 的名稱。以2.0來說應該是YARN層。

JobTracker和TaskTracker

先來看看上面那層，可以看到：

JobTracker - 在Master
TaskTracker - 在Slave
當一個工作被記錄的時候（例如呼叫WordCount.jar），會先進入到 JobTracker，再由JobTracker去切割分派給 slave的 TaskTracker去做執行。最後TaskTracker在回報結果到JobTracker裡面。

job分派情況，來源：http://saphanatutorial.com/mapreduce/

YARN - ResourceManager

看到這邊，或許會奇怪，為什麼jps裡面沒有JobTracker和TaskTracker？原因是，JobTracker和TaskTracker是 MapReduce Layer層的內容，而Hadoop 2.0加上了YARN，因此在jps看到的是 ResourceManager和 NodeManager。

簡單來說，可以理解成為:

JobTracker - ResourceManager
TaskTracker - NodeManager