第八屆 優選

big_data
Spark 2.0 in Scala
joechh

系列文章

DAY 21

[Spark-Day21](Spark Streaming篇)Stateful Streaming

昨天我們看了SparkingStreamingContext的起手式與一個stateless的use case。基本上,我認為stateless不用處理關注其他...

DAY 22

[Spark-Day22](Spark Streaming篇) mapWithState by Use Case

Spark 1.6版時提出了新的stateful函式:mapWithState。本篇延續之前的範例,然後介紹mapWithState。 我們建立了兩個RDD:...

DAY 23

[Spark-Day23](Spark Streaming篇)Window Operation by Use Case

延續先前的範例,假設我只想看見一點的股票交易資料勒?例如: 最近一個小時內,總交易次數總為何?交易量最高的五支股票為何? OK,來分析問題。首先每批資料的區...

DAY 24

[Spark-Day24](Scala番外篇) Patten matching

一直很想把Patten matching、Case Class、Extrator、Sealed的相關概念寫一下,就再來個番外吧。今天沒有Spark,但是有很重要...

DAY 25

[Spark-Day25](Scala番外篇) Extrator、Case Class、Sealed Class大亂鬥

看完最直接的pattern match基礎應用,稍微講一些周邊作為番外的Ending吧,常常與pattern match一起提到的概念大概有Extrator、C...

DAY 26

[Spark-Day26](Spark 好友篇) Streaming with Kafka初探

Spark Streaming支援多種資料來源,最基本內建常用的有: 檔案輸入串流 (File input Stream) Socket輸入串流 (Socke...

DAY 27

[Spark-Day27](Spark 好友篇)SparkStreaming With Kafka

我們昨天已經看過如何在Scala中獨立使用Kafka。以我之前的經驗,Kafka Producer的部份有比較多的可能會與其他系統而不是Spark整合,這時候就...

DAY 28

[Spark-Day28](Spark好友篇)一次搞定Cassandra安裝與基礎查詢操作

趁最後幾天衝一下我很愛的分散式資料庫Cassandra。如果要用30秒的電梯演講說明Cassandra的優點,我會說: Cassandra是個開放源碼、分散式...

DAY 29

[Spark-Day29](Spark好友篇) Cassandra with Spark長篇

昨天完成Cassandra的簡易安裝,並在cqlsh中走過基本的CRUD、UDT以及一些稍微特別的操作馬拉松後,今天當然要進一步用Spark與Cassandra...

DAY 30

[Spark-Day30](完結篇)資料工程師之路

從我的文章就大慨可以看出,我的內容很偏資料工程,而不是所謂的資料科學,更沒有講到半點ML或是DP。因為我是一位熱愛資料處理的(資料工程師)數據領域黑手XD。雖然...