Spark裡有幾個重要要素
RDD(Resilient Distributed Datasets)彈性分散式資料集
類似於一個分散式記憶體概念,可以在記憶體或是硬碟中處理資料,並具有高容錯性以及不可變性,並提供了多樣的API來操作資料Spark SQL
是Spark用來執行SQL語法查詢的功能
Spark Streaming巨量資料串流處理
是以Spark核心API擴充出來的一個模組
MLlib 機器學習
是Spark上分散式機器學習框架。可以建置機器學習應用程式及分析資料,提供許多可用於機器學習工作的程式:
• 分類
• 迴歸
• 叢集
• 主題模型化
• 奇異值分解 (SVD) 和主體元件分析 (PCA)
• 假設測試和計算範例統計資料
GraphX圖形處理
使用RDD來儲存資料,並提供了實用的圖操作方法。
GraphX是一個操作圖(如網路的好友圖)和圖的並行計算資料庫。GraphX允許每個節點和邊綁定任意屬性來創建一個有向圖(是擁有頂點屬性和邊屬性的一種圖)。
資料來源:
https://ithelp.ithome.com.tw/articles/10195556
https://docs.microsoft.com/zh-tw/azure/hdinsight/spark/apache-spark-machine-learning-mllib-ipython
https://blog.csdn.net/tanglizhe1105/article/details/50740295