iT邦幫忙

2018 iT 邦幫忙鐵人賽
DAY 1
0
自我挑戰組

資訊技術解戈迪安繩結系列 第 1

IT|軟體|分散式運算|Hadoop 介紹

  • 分享至 

  • xImage
  •  

Hadoop 介紹資料


Hadoop 2.x和1.x已經大不相同了,應該說對於存儲計算都更加通用了。Hadoop 2.x實現了用來管理集群資源的YARN框架,可以面向任何需要使用基於HDFS存儲來計算的需要,當然MapReduce現在已經作為外圍的插件式的計算框架,你可以根據需要開發或者選擇合適的計算框架。目前,貌似對MapReduce支持還是比較好的,畢竟MapReduce框架已經還算成熟。其他一些基於YARN框架的標準也在開發中。
YARN框架的核心是資源的管理和分配調度,它比Hadoop 1.x中的資源分配的粒度更細了,也更加靈活了,它的前景應該不錯。由於極大地靈活性,所以在使用過程中由於這些配置的靈活性,可能使用的難度也加大了一些。另外,我個人覺得,YARN畢竟還在發展之中,也有很多不成熟的地方,各種問題頻頻出現,資料也相對較少,官方文檔有時更新也不是很及時,如果我選擇做海量數據處理,可能YARN還不能滿足生產環境的需要。如果完全使用MapReduce來做計算,還是選擇相對更加成熟的Hadoop 1.x版本用於生產環境。

MapReduce 概念


數錢幣故事來解釋MapReduce
MapReduce的基本概念其實不難懂,用一個真實的數錢幣故事來解釋。有位企業主為了刁難銀行,用50元硬幣和10元硬幣償還316萬元的貸款,數萬枚硬幣重達1公噸,還得找來吊車才能送到銀行,幾位行員七手八腳花了好幾個小時才清點完畢。銀行只要不斷加派人手,就能縮短清點時間,例如能立即找到100個人手,10分鐘內就能完成,不會影響到正常銀行運作。

就像這個不斷加派人手來清點錢幣的做法一樣,MapReduce可以不斷增加更多伺服器來提高運算能力,增加可承載的運算量。透過Map程式將資料切割成不相關的區塊,分配給大量電腦處理,再透過Reduce程式將結果彙整,輸出開發者需要的結果。

1.Map程式將資料切割成不相關的區塊,分配給大量電腦處理
2.透過Reduce程式將結果彙整

網路資源


Hadoop Map Reduce 程式設計(內含 Eclipse plugin 整合 p37 )


下一篇
IT|程式設計|Front-End|PhoneGap APP 快速開發移動端應用
系列文
資訊技術解戈迪安繩結29
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言