iT邦幫忙

鐵人檔案

2017 iT 邦幫忙鐵人賽
回列表
Big Data

Spark 2.0 in Scala 系列

參賽天數 30 天共 30 篇文章 | 14 人訂閱 訂閱系列文
DAY 21

[Spark-Day21](Spark Streaming篇)Stateful Streaming

昨天我們看了SparkingStreamingContext的起手式與一個stateless的use case。基本上,我認為stateless不用處理關注其他...

2017-01-05 ‧ 由 joechh 分享
DAY 22

[Spark-Day22](Spark Streaming篇) mapWithState by Use Case

Spark 1.6版時提出了新的stateful函式:mapWithState。本篇延續之前的範例,然後介紹mapWithState。 我們建立了兩個RDD:...

2017-01-06 ‧ 由 joechh 分享
DAY 23

[Spark-Day23](Spark Streaming篇)Window Operation by Use Case

延續先前的範例,假設我只想看見一點的股票交易資料勒?例如: 最近一個小時內,總交易次數總為何?交易量最高的五支股票為何? OK,來分析問題。首先每批資料的區...

2017-01-07 ‧ 由 joechh 分享
DAY 24

[Spark-Day24](Scala番外篇) Patten matching

一直很想把Patten matching、Case Class、Extrator、Sealed的相關概念寫一下,就再來個番外吧。今天沒有Spark,但是有很重要...

2017-01-08 ‧ 由 joechh 分享
DAY 25

[Spark-Day25](Scala番外篇) Extrator、Case Class、Sealed Class大亂鬥

看完最直接的pattern match基礎應用,稍微講一些周邊作為番外的Ending吧,常常與pattern match一起提到的概念大概有Extrator、C...

2017-01-09 ‧ 由 joechh 分享
DAY 26

[Spark-Day26](Spark 好友篇) Streaming with Kafka初探

Spark Streaming支援多種資料來源,最基本內建常用的有: 檔案輸入串流 (File input Stream) Socket輸入串流 (Socke...

2017-01-10 ‧ 由 joechh 分享
DAY 27

[Spark-Day27](Spark 好友篇)SparkStreaming With Kafka

我們昨天已經看過如何在Scala中獨立使用Kafka。以我之前的經驗,Kafka Producer的部份有比較多的可能會與其他系統而不是Spark整合,這時候就...

2017-01-11 ‧ 由 joechh 分享
DAY 28

[Spark-Day28](Spark好友篇)一次搞定Cassandra安裝與基礎查詢操作

趁最後幾天衝一下我很愛的分散式資料庫Cassandra。如果要用30秒的電梯演講說明Cassandra的優點,我會說: Cassandra是個開放源碼、分散式...

2017-01-12 ‧ 由 joechh 分享
DAY 29

[Spark-Day29](Spark好友篇) Cassandra with Spark長篇

昨天完成Cassandra的簡易安裝,並在cqlsh中走過基本的CRUD、UDT以及一些稍微特別的操作馬拉松後,今天當然要進一步用Spark與Cassandra...

2017-01-13 ‧ 由 joechh 分享
DAY 30

[Spark-Day30](完結篇)資料工程師之路

從我的文章就大慨可以看出,我的內容很偏資料工程,而不是所謂的資料科學,更沒有講到半點ML或是DP。因為我是一位熱愛資料處理的(資料工程師)數據領域黑手XD。雖然...

2017-01-14 ‧ 由 joechh 分享