第八屆 優選

big_data
Spark 2.0 in Scala
joechh

系列文章

DAY 11

[Spark-Day11](core API實戰篇)聚合函數-1

聚合(Aggregation)功能無論是資料處理或分析中不可或缺的功能。無論是最常見的avg、sum、min、max,count等或是自定義的聚合,接下來就來個...

DAY 12

[Spark-Day12](core API實戰篇)聚合函數-2

看懂Aggregate之後,再來的就簡單多了,繼續討論其他的聚合函數吧,還有: AggreByKey Fold FoldByKey Reduce Reduce...

DAY 13

[Spark-Day13](core API實戰篇)Partition

今天來聊聊Spark的partition,也就是RDD的DD(Distributed dataset)。基本上一個RDD會有數個不等的partition所組成,...

DAY 14

[Spark-Day14](core API實戰篇) Joining by Use Case

先前處理的都是單一RDD然後轉換得到我們要的結果,假設我的需要一次處理兩個RDD以上呢?這不就像DB的join嗎?沒錯,接下來要談的主題就是RDD的 Join、...

DAY 15

[Spark-Day15](core API實戰篇) Sorting, Grouping by Use Case

了解Joining用法後來看看Sorting跟Grouping,Grouping的high-level API我們前幾天已經看過了,今天會講一個底層的Combi...

DAY 16

[Spark-Day16](core API實戰篇) Task、Stages、Checkpoint

講完了pairRDD與聚合函數後,再來講CoreAPI最後一塊拼圖:Task & Stages。今天的文章比較偏概念性的內容,說明Spark的工作概念與...

DAY 17

[Spark-Day17](core API實戰篇) Shared Variable

終於要進入core API實戰的最後一篇~Accumulator與Broadcast,趕快開始吧! Accumulator Accumulator可在不同的ex...

DAY 18

[Spark-Day18](Spark Streaming篇)HDFS、Kafka環境設定

終於進入下一個主題:Spark Family的Spark Streaming篇~ 講解過程中要從一些外部系統接資料,特別是HDFS跟Kafka,所以免不了要提一...

DAY 19

[Spark-Day19](Spark Streaming篇)Streaming初探

設定完了,開始來看看Spark Streaming到底是啥吧!基本上寫Streaming我會比較習慣在IDE中,所以回到Intellij + Scala Plu...

DAY 20

[Spark-Day20](Spark Streaming篇)Stateless Streaming by Use Case

Spark Streaming裡面的API操作主要分為兩大類: Stateless Streaming StateFul Streaming State...