iT邦幫忙

鐵人檔案

2017 iT 邦幫忙鐵人賽
回列表
Big Data

Spark 2.0 in Scala 系列

參賽天數 30 天共 30 篇文章 | 15 人訂閱 訂閱系列文
DAY 11

[Spark-Day11](core API實戰篇)聚合函數-1

聚合(Aggregation)功能無論是資料處理或分析中不可或缺的功能。無論是最常見的avg、sum、min、max,count等或是自定義的聚合,接下來就來個...

2016-12-26 ‧ 由 joechh 分享
DAY 12

[Spark-Day12](core API實戰篇)聚合函數-2

看懂Aggregate之後,再來的就簡單多了,繼續討論其他的聚合函數吧,還有: AggreByKey Fold FoldByKey Reduce Reduce...

2016-12-27 ‧ 由 joechh 分享
DAY 13

[Spark-Day13](core API實戰篇)Partition

今天來聊聊Spark的partition,也就是RDD的DD(Distributed dataset)。基本上一個RDD會有數個不等的partition所組成,...

2016-12-28 ‧ 由 joechh 分享
DAY 14

[Spark-Day14](core API實戰篇) Joining by Use Case

先前處理的都是單一RDD然後轉換得到我們要的結果,假設我的需要一次處理兩個RDD以上呢?這不就像DB的join嗎?沒錯,接下來要談的主題就是RDD的 Join、...

2016-12-29 ‧ 由 joechh 分享
DAY 15

[Spark-Day15](core API實戰篇) Sorting, Grouping by Use Case

了解Joining用法後來看看Sorting跟Grouping,Grouping的high-level API我們前幾天已經看過了,今天會講一個底層的Combi...

2016-12-30 ‧ 由 joechh 分享
DAY 16

[Spark-Day16](core API實戰篇) Task、Stages、Checkpoint

講完了pairRDD與聚合函數後,再來講CoreAPI最後一塊拼圖:Task & Stages。今天的文章比較偏概念性的內容,說明Spark的工作概念與...

2016-12-31 ‧ 由 joechh 分享
DAY 17

[Spark-Day17](core API實戰篇) Shared Variable

終於要進入core API實戰的最後一篇~Accumulator與Broadcast,趕快開始吧! Accumulator Accumulator可在不同的ex...

2017-01-01 ‧ 由 joechh 分享
DAY 18

[Spark-Day18](Spark Streaming篇)HDFS、Kafka環境設定

終於進入下一個主題:Spark Family的Spark Streaming篇~ 講解過程中要從一些外部系統接資料,特別是HDFS跟Kafka,所以免不了要提一...

2017-01-02 ‧ 由 joechh 分享
DAY 19

[Spark-Day19](Spark Streaming篇)Streaming初探

設定完了,開始來看看Spark Streaming到底是啥吧!基本上寫Streaming我會比較習慣在IDE中,所以回到Intellij + Scala Plu...

2017-01-03 ‧ 由 joechh 分享
DAY 20

[Spark-Day20](Spark Streaming篇)Stateless Streaming by Use Case

Spark Streaming裡面的API操作主要分為兩大類: Stateless Streaming StateFul Streaming State...

2017-01-04 ‧ 由 joechh 分享