Day20 | Spark介紹及特色 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2019 iT 邦幫忙鐵人賽

DAY 20

自我挑戰組

大數據概念系列第 20 篇

Day20 | Spark介紹及特色

2019鐵人賽

WayneKuo

團隊四海遊龍

2018-10-30 16:09:44

2551 瀏覽

分享至

Spark是一個分佈式大數據框架

與Hadoop的MapReduce比，Spark會把執行後的資料存放在磁碟裡，在資料還沒被寫入時就可以在記憶體內分析並運算，因此速度上比Hadoop快上100倍，不但不需要 I/O 的成本，也大幅提升重複性或互動式工作負載的效能。

Spark 可以用Python、Java、Scala和SQL來建置應用程式，並且支持 SQL、流數據、機器學習，和圖像處理，可以使用 Apache Spark API，直接在叢集的 Apache Spark 中與 Python 或 Scala 互動。。很多知名的企業都使用Spark，例如： Apple、Facebook、IBM，和 Microsoft 等

但有些資料顯示把Apache Spark 和 Apache Hadoop 比是有點不恰當的。因目前在大多數Hadoop 發行版中都包含了Spark 。但Spark 已經成為許多人的首選，甚至超越了Hadoop 的MapReduce 。

資料來源：
https://aws.amazon.com/tw/emr/features/spark/
https://bigdatafinance.tw/index.php/tech/coding/253-spark-spark
https://aws.amazon.com/tw/emr/features/spark/