2025 iThome 鐵人賽

DAY 21

[Spark-Day21](Spark Streaming篇)Stateful Streaming

昨天我們看了SparkingStreamingContext的起手式與一個stateless的use case。基本上，我認為stateless不用處理關注其他...

2 Like 0 留言 4337 瀏覽

DAY 22

[Spark-Day22](Spark Streaming篇) mapWithState by Use Case

Spark 1.6版時提出了新的stateful函式：mapWithState。本篇延續之前的範例，然後介紹mapWithState。我們建立了兩個RDD：...

0 Like 0 留言 5205 瀏覽

DAY 23

[Spark-Day23](Spark Streaming篇)Window Operation by Use Case

延續先前的範例，假設我只想看見一點的股票交易資料勒？例如：最近一個小時內，總交易次數總為何？交易量最高的五支股票為何？ OK，來分析問題。首先每批資料的區...

0 Like 0 留言 5053 瀏覽

DAY 24

[Spark-Day24](Scala番外篇) Patten matching

一直很想把Patten matching、Case Class、Extrator、Sealed的相關概念寫一下，就再來個番外吧。今天沒有Spark，但是有很重要...

0 Like 0 留言 4260 瀏覽

DAY 25

[Spark-Day25](Scala番外篇) Extrator、Case Class、Sealed Class大亂鬥

看完最直接的pattern match基礎應用，稍微講一些周邊作為番外的Ending吧，常常與pattern match一起提到的概念大概有Extrator、C...

0 Like 0 留言 4933 瀏覽

DAY 26

[Spark-Day26](Spark 好友篇) Streaming with Kafka初探

Spark Streaming支援多種資料來源，最基本內建常用的有：檔案輸入串流 (File input Stream) Socket輸入串流 (Socke...

0 Like 0 留言 10367 瀏覽

DAY 27

[Spark-Day27](Spark 好友篇)SparkStreaming With Kafka

我們昨天已經看過如何在Scala中獨立使用Kafka。以我之前的經驗，Kafka Producer的部份有比較多的可能會與其他系統而不是Spark整合，這時候就...

0 Like 0 留言 10047 瀏覽

DAY 28

[Spark-Day28](Spark好友篇)一次搞定Cassandra安裝與基礎查詢操作

趁最後幾天衝一下我很愛的分散式資料庫Cassandra。如果要用30秒的電梯演講說明Cassandra的優點，我會說： Cassandra是個開放源碼、分散式...

0 Like 0 留言 32394 瀏覽

DAY 29

[Spark-Day29](Spark好友篇) Cassandra with Spark長篇

昨天完成Cassandra的簡易安裝，並在cqlsh中走過基本的CRUD、UDT以及一些稍微特別的操作馬拉松後，今天當然要進一步用Spark與Cassandra...

0 Like 1 留言 18642 瀏覽

DAY 30

[Spark-Day30](完結篇)資料工程師之路

從我的文章就大慨可以看出，我的內容很偏資料工程，而不是所謂的資料科學，更沒有講到半點ML或是DP。因為我是一位熱愛資料處理的（資料工程師）數據領域黑手XD。雖然...

2 Like 1 留言 27573 瀏覽

第八屆優選

系列文章