前面有提到,Hadoop如果可以的話,最好安裝在實體機上進行測試。如果預算有限,只能安裝到自己電腦上的話,就要安裝虛擬機,來進行佈署。從Apache Hadoop也可以找到單點與多台機器的佈署方式。
http://hadoop.apache.org/docs/stable/
基本上Hadoop 最主要由這兩種Node組成,分別為NameNode與DataNode,在一開始的版本中,NameNode只有一個,DataNode有很多,各自負責不同的任務。
Hadoop的安裝方式,其實Google一下就可以找到很多方法,
我覺得特別要注意的部分,有兩點小細節。
1.每一台機器的時間對應。
針對這一點,如果熟悉linux的話,其實可以安裝Time Server在NameNode上,
讓其他DataNode的機器跟NameNode的時間做對應。
Cloudera 的方式則是利用CM(Cloudera Manager)所安裝的那台為時間的標準。
2.機器之間的SSH認證要開啟。
因為NameNode必須要與DataNode進行溝通,如果這邊沒弄好的話,
真正在執行的時候,會出現要輸入帳號密碼的狀況XD
如果要快速安裝與練習,可以先到Cloudera的網站下載包裝好的映像檔,
再選擇你熟悉的VM進行下載。
http://www.cloudera.com/content/support/en/documentation.html
http://www.cloudera.com/content/support/en/downloads/download-components/download-products.html?productID=F6mO278Rvo
我是使用VMWare Player,所以我是下載VMWare的版本。
下載下來後,安裝映像檔再執行VM就可以。
快12點了,原本期待放假可以寫更多內容,不過烤肉烤太晚了....