談完成Python程式語言,再來談談大數據的處理平台Hadoop
Hadoop 是一個可以儲存比伺服器還大的超大檔案,也能儲存、處理、分析眾多資料。
主要透過兩種核心來解決資料存放的問題:HDFS 和 MapReduce,這兩個功能還能解決系統備份的問題,因此很適合應用在大數據的儲存和分析,成為大數據的主流技術。
HDFS 分散式檔案系統
透過 HDFS,Hadoop 能夠儲存巨量資料,將分散的儲存資源整合成一個有超大容量的儲存環境,且能確保檔案系統中的資料還能保存完好,不用擔心某個節點會掉而遺失資料。
MapReduce 平行運算架構
讓使用者能輕易編寫程式,並利用大量的分析來加速處理資料的速度。系統會先被切割成很多(key, value) 的序對,分別傳給不同的Mapper,Mapper處理後再將其整理成一組組的(key, value) 的序對,傳回Reducer整合結果並輸出,如下圖
資料來源:
http://www.cc.ntu.edu.tw/chinese/epaper/0011/20091220_1106.htm
https://www.inside.com.tw/2015/03/12/big-data-4-hadoop
http://blog.tibame.com/?p=1752