2025 iThome 鐵人賽

DAY 11

[Spark-Day11](core API實戰篇)聚合函數-1

聚合(Aggregation)功能無論是資料處理或分析中不可或缺的功能。無論是最常見的avg、sum、min、max，count等或是自定義的聚合，接下來就來個...

1 Like 0 留言 3715 瀏覽

DAY 12

[Spark-Day12](core API實戰篇)聚合函數-2

看懂Aggregate之後，再來的就簡單多了，繼續討論其他的聚合函數吧，還有： AggreByKey Fold FoldByKey Reduce Reduce...

2 Like 0 留言 3554 瀏覽

DAY 13

[Spark-Day13](core API實戰篇)Partition

今天來聊聊Spark的partition，也就是RDD的DD(Distributed dataset)。基本上一個RDD會有數個不等的partition所組成，...

0 Like 0 留言 7465 瀏覽

DAY 14

[Spark-Day14](core API實戰篇) Joining by Use Case

先前處理的都是單一RDD然後轉換得到我們要的結果，假設我的需要一次處理兩個RDD以上呢？這不就像DB的join嗎？沒錯，接下來要談的主題就是RDD的 Join、...

1 Like 0 留言 3200 瀏覽

DAY 15

[Spark-Day15](core API實戰篇) Sorting, Grouping by Use Case

了解Joining用法後來看看Sorting跟Grouping，Grouping的high-level API我們前幾天已經看過了，今天會講一個底層的Combi...

1 Like 0 留言 3536 瀏覽

DAY 16

[Spark-Day16](core API實戰篇) Task、Stages、Checkpoint

講完了pairRDD與聚合函數後，再來講CoreAPI最後一塊拼圖：Task & Stages。今天的文章比較偏概念性的內容，說明Spark的工作概念與...

1 Like 0 留言 3615 瀏覽

DAY 17

[Spark-Day17](core API實戰篇) Shared Variable

終於要進入core API實戰的最後一篇~Accumulator與Broadcast，趕快開始吧！ Accumulator Accumulator可在不同的ex...

1 Like 1 留言 3503 瀏覽

DAY 18

[Spark-Day18](Spark Streaming篇)HDFS、Kafka環境設定

終於進入下一個主題：Spark Family的Spark Streaming篇~ 講解過程中要從一些外部系統接資料，特別是HDFS跟Kafka，所以免不了要提一...

1 Like 0 留言 7335 瀏覽

DAY 19

[Spark-Day19](Spark Streaming篇)Streaming初探

設定完了，開始來看看Spark Streaming到底是啥吧！基本上寫Streaming我會比較習慣在IDE中，所以回到Intellij + Scala Plu...

1 Like 0 留言 4512 瀏覽

DAY 20

[Spark-Day20](Spark Streaming篇)Stateless Streaming by Use Case

Spark Streaming裡面的API操作主要分為兩大類： Stateless Streaming StateFul Streaming State...

1 Like 0 留言 3806 瀏覽

第八屆優選

系列文章