Hadoop而發展至今相關ecosystem已蓬勃發展,它們互相輔助與依賴因而產生了各式各樣的使用情境!所以要來介紹Hadoop ecosystem,如Hadoop、HBase、Hive、Spark、Solr...等的安裝教學與安裝時所踩到的坑,最後帶來各ecosystem工具組合使用情境的介紹。
基於 Google 2003 年發表了 MapReduce 與 GFS(Google File System) 的論文,在兩位Hadoop 創始人 Doug C...
Hadoop 是一個集儲存、運算、資源管理於一身的分散式 Big Data 處理平臺,分別為三大模組提供服務: HDFS Yarn MapReduce HD...
前面的簡介中有提到,Hadoop是個分散式儲存及運算的架構,所以安裝基本上需要多台電腦以達到分散的目標(使用VM或是Container技術,如VirtualBo...
Hadoop有三種安裝模式: 獨立模式(Standalone)。 偽分佈模式(Pseudo-Distributed)。 多機安裝模式(Fully-Distri...
在安裝完了Hadoop,並且正常啟動service後,接著我們要來進行HDFS使用教學。與一般的檔案系統一樣,HDFS可以新增、複製、刪除、與查看檔案,使用的指...
Hadoop HDFS Usage 本篇將介紹昨天所提到HDFS相關指令的參數。如果想知道更多的說明,可以使用hadoop fs -help指令查看更多。[]內...
前面介紹完了HDFS的基本操作與指令介紹後,接下來要來簡介MapReduce分散式運算的實作,終於可以寫點程式啦! 由於Hadoop原始碼是由Java所撰寫,當...
承接上篇的程式碼,這次計算的檔案有兩個:wordcount_target1 與 wordcount_target2,由於檔案容量小於HDFS一個block的大小...
HBase是運作在 HDFS 之上的非關連式分散式資料庫 (non-relational, distributed database)。想在 Big Data...
HBase安裝模式與Hadoop相同,有Standalone、Pseudo-Distributed與Fully-Distributed,而這些名稱也是根據Had...