Spark是一個分佈式大數據框架
與Hadoop的MapReduce比,Spark會把執行後的資料存放在磁碟裡,在資料還沒被寫入時就可以在記憶體內分析並運算,因此速度上比Hadoop快上100倍,不但不需要 I/O 的成本,也大幅提升重複性或互動式工作負載的效能。
Spark 可以用Python、Java、Scala和SQL來建置應用程式,並且支持 SQL、流數據、機器學習,和圖像處理,可以使用 Apache Spark API,直接在叢集的 Apache Spark 中與 Python 或 Scala 互動。。很多知名的企業都使用Spark,例如: Apple、Facebook、IBM,和 Microsoft 等
但有些資料顯示把Apache Spark 和 Apache Hadoop 比是有點不恰當的。因目前在大多數Hadoop 發行版中都包含了Spark 。但Spark 已經成為許多人的首選,甚至超越了Hadoop 的MapReduce 。
資料來源:
https://aws.amazon.com/tw/emr/features/spark/
https://bigdatafinance.tw/index.php/tech/coding/253-spark-spark
https://aws.amazon.com/tw/emr/features/spark/