倒數兩天了,回顧第一天的時候,發現跳過zookeeper沒講到。
不過之前就很想來玩 Apache Spark,而且這次為了鐵人賽的文章,
真的有把一些不熟的地方在重新弄懂一下。
鐵人賽惠我良多阿!!
Apache Spark
官方網站:http://spark.incubator.apache.org/
一開始在官網就可以看到Hadoop與Spark的速度比較,
Spark是一個分散式運算系統,專門為資料分析所設計,最初是為了要在記憶體中進行迭代與交互的運算,因為在MapReduce裡面,遇到一些迭代與交互的狀況,必須要等其他節點算完,才能進行結合或是往下一步去計算,像是GA這種類型的機器學習或是DM,有時候。
<!--有事情鮮芒一下-->