2025 iThome 鐵人賽

DAY 1

[Spark-Day1](基礎篇)不囉唆，直接上Spark-shell

先來張Spark 2.0賀圖，這樣也算直上Spark-shell了......XD 開發環境簡述 Java8 Hadoop2.7.2(為了HDFS) Spar...

3 Like 1 留言 18089 瀏覽

DAY 2

[Spark-Day2](基礎篇) RDD概念與map操作

前一天我們建立了一些變數，如lines、bsdLines等，有沒有感覺他們跟一般變數沒兩樣呢？在Spark中這些變數被稱為RDD(Resilient Distr...

3 Like 0 留言 18018 瀏覽

DAY 3

[Spark-Day3](基礎篇) RDD概念與flatMap操作 by Use Case

以前在學程式的時候有沒有感覺老師一直講API很無聊啊，所以我們還是要套個實際範例啊!!後續的內容會有許多XXX概念 by Use Case系列，學了總是要用才有...

2 Like 0 留言 10045 瀏覽

DAY 4

[Spark-Day4](基礎篇) Scala & RDD中的Implicit Conversion

往下介紹之前，先講解一下Scala中的Implicit Conversion(隱式轉換)，因為Spark大量使用宣告方式，所以了解Implicit Conver...

2 Like 1 留言 5536 瀏覽

DAY 5

[Spark-Day5](基礎篇) 撰寫第1支Spark App

spark-shell玩夠了，開始寫標準的APP吧。這支簡易的應用會load一份json檔案並透過SparkSQL操作一些查詢。sparkSQL厲害的地方之一就...

3 Like 1 留言 7019 瀏覽

DAY 6

[Spark-Day6](基礎篇) For expression、 Set 、 SparkSQL UDF by Use Case

延續昨天的案例，昨天的案例中，我們已經可以順利取得某類GitHub Event(例如PushEvent)的所有成員，並且進行一些額外操作(例如GroupBy,...

3 Like 1 留言 4026 瀏覽

DAY 7

[Spark-Day7](基礎篇) Broadcast與透過Spark-submit遞交工作

還記不記得昨天用forExpression產生一個優雅的employees Set？並且用於UDF中？ val employees = Set() ++...

4 Like 2 留言 7349 瀏覽

DAY 8

[Spark-Day8](core API實戰篇) Pair RDD-1

再來準備花幾天的時間提一下幾個Spark核心概念： PairRDD Partition Aggregation類操作 RDD相依性累加器與廣播變數 Sp...

2 Like 1 留言 4736 瀏覽

DAY 9

[Spark-Day9](core API實戰篇) Pair RDD-2

繼續進行昨天未完成的課題我們想要進行以下分析：消費次數最多的贈予一支bear doll（已完成）給予一次購買兩隻以上的Barbie交易結帳金額95%折的...

2 Like 3 留言 3278 瀏覽

DAY 10

[Spark-Day10](Scala番外篇) Currying

聖誕快樂~ 今天就來說說Scala的Currying吧，Scala官方說法為： Methods may define multiple parameter l...

2 Like 0 留言 2958 瀏覽

第八屆優選

系列文章