iT邦幫忙

鐵人檔案

2017 iT 邦幫忙鐵人賽
回列表
Big Data

Spark 2.0 in Scala 系列

玩Scala也玩Spark,趁Spark升級2.0,一起來玩玩吧!
[每日以小tasks分析程式碼snippet],加油!

鐵人鍊成 | 共 30 篇文章 | 53 人訂閱 訂閱系列文 RSS系列文
DAY 1

達標好文 [Spark-Day1](基礎篇)不囉唆,直接上Spark-shell

先來張Spark 2.0賀圖,這樣也算直上Spark-shell了......XD 開發環境簡述 Java8 Hadoop2.7.2(為了HDFS) Spar...

2016-12-16 ‧ 由 joechh 分享
DAY 2

[Spark-Day2](基礎篇) RDD概念與map操作

前一天我們建立了一些變數,如lines、bsdLines等,有沒有感覺他們跟一般變數沒兩樣呢?在Spark中這些變數被稱為RDD(Resilient Distr...

2016-12-17 ‧ 由 joechh 分享
DAY 3

[Spark-Day3](基礎篇) RDD概念與flatMap操作 by Use Case

以前在學程式的時候有沒有感覺老師一直講API很無聊啊,所以我們還是要套個實際範例啊!!後續的內容會有許多XXX概念 by Use Case系列,學了總是要用才有...

2016-12-18 ‧ 由 joechh 分享
DAY 4

[Spark-Day4](基礎篇) Scala & RDD中的Implicit Conversion

往下介紹之前,先講解一下Scala中的Implicit Conversion(隱式轉換),因為Spark大量使用宣告方式,所以了解Implicit Conver...

2016-12-19 ‧ 由 joechh 分享
DAY 5

[Spark-Day5](基礎篇) 撰寫第1支Spark App

spark-shell玩夠了,開始寫標準的APP吧。這支簡易的應用會load一份json檔案並透過SparkSQL操作一些查詢。sparkSQL厲害的地方之一就...

2016-12-20 ‧ 由 joechh 分享
DAY 6

[Spark-Day6](基礎篇) For expression、 Set 、 SparkSQL UDF by Use Case

延續昨天的案例,昨天的案例中,我們已經可以順利取得某類GitHub Event(例如PushEvent)的所有成員,並且進行一些額外操作(例如GroupBy,...

2016-12-21 ‧ 由 joechh 分享
DAY 7

[Spark-Day7](基礎篇) Broadcast與透過Spark-submit遞交工作

還記不記得昨天用forExpression產生一個優雅的employees Set?並且用於UDF中? val employees = Set() ++...

2016-12-22 ‧ 由 joechh 分享
DAY 8

[Spark-Day8](core API實戰篇) Pair RDD-1

再來準備花幾天的時間提一下幾個Spark核心概念: PairRDD Partition Aggregation類操作 RDD相依性 累加器與廣播變數 Sp...

2016-12-23 ‧ 由 joechh 分享
DAY 9

[Spark-Day9](core API實戰篇) Pair RDD-2

繼續進行昨天未完成的課題我們想要進行以下分析: 消費次數最多的贈予一支bear doll(已完成) 給予一次購買兩隻以上的Barbie交易結帳金額95%折的...

2016-12-24 ‧ 由 joechh 分享
DAY 10

[Spark-Day10](Scala番外篇) Currying

聖誕快樂~ 今天就來說說Scala的Currying吧,Scala官方說法為: Methods may define multiple parameter l...

2016-12-25 ‧ 由 joechh 分享