聚合(Aggregation)功能無論是資料處理或分析中不可或缺的功能。無論是最常見的avg、sum、min、max,count等或是自定義的聚合,接下來就來個...
看懂Aggregate之後,再來的就簡單多了,繼續討論其他的聚合函數吧,還有: AggreByKey Fold FoldByKey Reduce Reduce...
今天來聊聊Spark的partition,也就是RDD的DD(Distributed dataset)。基本上一個RDD會有數個不等的partition所組成,...
先前處理的都是單一RDD然後轉換得到我們要的結果,假設我的需要一次處理兩個RDD以上呢?這不就像DB的join嗎?沒錯,接下來要談的主題就是RDD的 Join、...
了解Joining用法後來看看Sorting跟Grouping,Grouping的high-level API我們前幾天已經看過了,今天會講一個底層的Combi...
講完了pairRDD與聚合函數後,再來講CoreAPI最後一塊拼圖:Task & Stages。今天的文章比較偏概念性的內容,說明Spark的工作概念與...
終於要進入core API實戰的最後一篇~Accumulator與Broadcast,趕快開始吧! Accumulator Accumulator可在不同的ex...
終於進入下一個主題:Spark Family的Spark Streaming篇~ 講解過程中要從一些外部系統接資料,特別是HDFS跟Kafka,所以免不了要提一...
設定完了,開始來看看Spark Streaming到底是啥吧!基本上寫Streaming我會比較習慣在IDE中,所以回到Intellij + Scala Plu...
Spark Streaming裡面的API操作主要分為兩大類: Stateless Streaming StateFul Streaming State...