iT邦幫忙

2019 iT 邦幫忙鐵人賽

DAY 20
0
自我挑戰組

大數據概念系列 第 20

Day20 | Spark介紹及特色

  • 分享至 

  • xImage
  •  

Spark是一個分佈式大數據框架

https://ithelp.ithome.com.tw/upload/images/20181030/20112016fK4LM2IcJJ.png

與Hadoop的MapReduce比,Spark會把執行後的資料存放在磁碟裡,在資料還沒被寫入時就可以在記憶體內分析並運算,因此速度上比Hadoop快上100倍,不但不需要 I/O 的成本,也大幅提升重複性或互動式工作負載的效能。

Spark 可以用Python、Java、Scala和SQL來建置應用程式,並且支持 SQL、流數據、機器學習,和圖像處理,可以使用 Apache Spark API,直接在叢集的 Apache Spark 中與 Python 或 Scala 互動。。很多知名的企業都使用Spark,例如: Apple、Facebook、IBM,和 Microsoft 等

但有些資料顯示把Apache Spark 和 Apache Hadoop 比是有點不恰當的。因目前在大多數Hadoop 發行版中都包含了Spark 。但Spark 已經成為許多人的首選,甚至超越了Hadoop 的MapReduce 。

資料來源:
https://aws.amazon.com/tw/emr/features/spark/
https://bigdatafinance.tw/index.php/tech/coding/253-spark-spark
https://aws.amazon.com/tw/emr/features/spark/


上一篇
Day19 | 大數據的處理平台Hadoop-2
下一篇
Day21 | Spark核心數據庫
系列文
大數據概念30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言