iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

4 Like 0 留言 3089 瀏覽

鐵人賽 Software Development DAY 1

30 天把自己榨好榨滿的四週四語言大挑戰！系列第 1 篇

技術 [Day 0] 最經典的起手式！

始不知道大家有沒有看過有一本書叫做 seven languages in seven weeks，這本書是希望能夠讓你用七週的時間，每個禮拜都能夠去認識一門新...

ryanyang1221 ‧ 2019-09-17

5 Like 5 留言 20178 瀏覽

達標好文技術 MacBook Pro初心者經驗分享by a Java programmer

由於公司對於員工自購筆電有補助, 想來想去自然是挑不二價的ＭacBook Pro 啦！入手時間是端午過後, 本文主要是分享這 10 來天將ＭacBook P...

Darwin Watterson ‧ 2018-07-01

6 Like 1 留言 9492 瀏覽

達標好文技術 Spark SQL實測 MySQL, MSSQL, Oracle "SELECT語法"

任何結構性的資料(ex:Json)在Spark SQL下,都可以透過createOrReplaceTempView("view名稱") 告知...

Darwin Watterson ‧ 2018-05-11

2 Like 1 留言 27822 瀏覽

鐵人賽 Big Data DAY 30

Spark 2.0 in Scala 系列第 30 篇

技術 [Spark-Day30](完結篇)資料工程師之路

從我的文章就大慨可以看出，我的內容很偏資料工程，而不是所謂的資料科學，更沒有講到半點ML或是DP。因為我是一位熱愛資料處理的（資料工程師）數據領域黑手XD。雖然...

joechh ‧ 2017-01-14

0 Like 1 留言 18798 瀏覽

鐵人賽 Big Data DAY 29

Spark 2.0 in Scala 系列第 29 篇

技術 [Spark-Day29](Spark好友篇) Cassandra with Spark長篇

昨天完成Cassandra的簡易安裝，並在cqlsh中走過基本的CRUD、UDT以及一些稍微特別的操作馬拉松後，今天當然要進一步用Spark與Cassandra...

joechh ‧ 2017-01-13

0 Like 0 留言 32833 瀏覽

鐵人賽 Big Data DAY 28

Spark 2.0 in Scala 系列第 28 篇

技術 [Spark-Day28](Spark好友篇)一次搞定Cassandra安裝與基礎查詢操作

趁最後幾天衝一下我很愛的分散式資料庫Cassandra。如果要用30秒的電梯演講說明Cassandra的優點，我會說： Cassandra是個開放源碼、分散式...

joechh ‧ 2017-01-12

0 Like 0 留言 10198 瀏覽

鐵人賽 Big Data DAY 27

Spark 2.0 in Scala 系列第 27 篇

技術 [Spark-Day27](Spark 好友篇)SparkStreaming With Kafka

我們昨天已經看過如何在Scala中獨立使用Kafka。以我之前的經驗，Kafka Producer的部份有比較多的可能會與其他系統而不是Spark整合，這時候就...

joechh ‧ 2017-01-11

0 Like 0 留言 10542 瀏覽

鐵人賽 Big Data DAY 26

Spark 2.0 in Scala 系列第 26 篇

技術 [Spark-Day26](Spark 好友篇) Streaming with Kafka初探

Spark Streaming支援多種資料來源，最基本內建常用的有：檔案輸入串流 (File input Stream) Socket輸入串流 (Socke...

joechh ‧ 2017-01-10

0 Like 0 留言 5047 瀏覽

鐵人賽 Big Data DAY 25

Spark 2.0 in Scala 系列第 25 篇

技術 [Spark-Day25](Scala番外篇) Extrator、Case Class、Sealed Class大亂鬥

看完最直接的pattern match基礎應用，稍微講一些周邊作為番外的Ending吧，常常與pattern match一起提到的概念大概有Extrator、C...

joechh ‧ 2017-01-09

0 Like 0 留言 4365 瀏覽

鐵人賽 Big Data DAY 24

Spark 2.0 in Scala 系列第 24 篇

技術 [Spark-Day24](Scala番外篇) Patten matching

一直很想把Patten matching、Case Class、Extrator、Sealed的相關概念寫一下，就再來個番外吧。今天沒有Spark，但是有很重要...

joechh ‧ 2017-01-08

0 Like 0 留言 5196 瀏覽

鐵人賽 Big Data DAY 23

Spark 2.0 in Scala 系列第 23 篇

技術 [Spark-Day23](Spark Streaming篇)Window Operation by Use Case

延續先前的範例，假設我只想看見一點的股票交易資料勒？例如：最近一個小時內，總交易次數總為何？交易量最高的五支股票為何？ OK，來分析問題。首先每批資料的區...

joechh ‧ 2017-01-07

0 Like 0 留言 5342 瀏覽

鐵人賽 Big Data DAY 22

Spark 2.0 in Scala 系列第 22 篇

技術 [Spark-Day22](Spark Streaming篇) mapWithState by Use Case

Spark 1.6版時提出了新的stateful函式：mapWithState。本篇延續之前的範例，然後介紹mapWithState。我們建立了兩個RDD：...

joechh ‧ 2017-01-06

2 Like 0 留言 4469 瀏覽

鐵人賽 Big Data DAY 21

Spark 2.0 in Scala 系列第 21 篇

技術 [Spark-Day21](Spark Streaming篇)Stateful Streaming

昨天我們看了SparkingStreamingContext的起手式與一個stateless的use case。基本上，我認為stateless不用處理關注其他...

joechh ‧ 2017-01-05

1 Like 0 留言 3842 瀏覽

鐵人賽 Big Data DAY 20

Spark 2.0 in Scala 系列第 20 篇

技術 [Spark-Day20](Spark Streaming篇)Stateless Streaming by Use Case

Spark Streaming裡面的API操作主要分為兩大類： Stateless Streaming StateFul Streaming State...

joechh ‧ 2017-01-04

1 Like 0 留言 4557 瀏覽

鐵人賽 Big Data DAY 19

Spark 2.0 in Scala 系列第 19 篇

技術 [Spark-Day19](Spark Streaming篇)Streaming初探

設定完了，開始來看看Spark Streaming到底是啥吧！基本上寫Streaming我會比較習慣在IDE中，所以回到Intellij + Scala Plu...

joechh ‧ 2017-01-03

1 Like 0 留言 7370 瀏覽

鐵人賽 Big Data DAY 18

Spark 2.0 in Scala 系列第 18 篇

技術 [Spark-Day18](Spark Streaming篇)HDFS、Kafka環境設定

終於進入下一個主題：Spark Family的Spark Streaming篇~ 講解過程中要從一些外部系統接資料，特別是HDFS跟Kafka，所以免不了要提一...

joechh ‧ 2017-01-02

1 Like 1 留言 3536 瀏覽

鐵人賽 Big Data DAY 17

Spark 2.0 in Scala 系列第 17 篇

技術 [Spark-Day17](core API實戰篇) Shared Variable

終於要進入core API實戰的最後一篇~Accumulator與Broadcast，趕快開始吧！ Accumulator Accumulator可在不同的ex...

joechh ‧ 2017-01-01

1 Like 0 留言 3661 瀏覽

鐵人賽 Big Data DAY 16

Spark 2.0 in Scala 系列第 16 篇

技術 [Spark-Day16](core API實戰篇) Task、Stages、Checkpoint

講完了pairRDD與聚合函數後，再來講CoreAPI最後一塊拼圖：Task & Stages。今天的文章比較偏概念性的內容，說明Spark的工作概念與...

joechh ‧ 2016-12-31

1 Like 0 留言 3573 瀏覽

鐵人賽 Big Data DAY 15

Spark 2.0 in Scala 系列第 15 篇

技術 [Spark-Day15](core API實戰篇) Sorting, Grouping by Use Case

了解Joining用法後來看看Sorting跟Grouping，Grouping的high-level API我們前幾天已經看過了，今天會講一個底層的Combi...

joechh ‧ 2016-12-30

1 Like 0 留言 3233 瀏覽

鐵人賽 Big Data DAY 14

Spark 2.0 in Scala 系列第 14 篇

技術 [Spark-Day14](core API實戰篇) Joining by Use Case

先前處理的都是單一RDD然後轉換得到我們要的結果，假設我的需要一次處理兩個RDD以上呢？這不就像DB的join嗎？沒錯，接下來要談的主題就是RDD的 Join、...

joechh ‧ 2016-12-29

0 Like 0 留言 7526 瀏覽

鐵人賽 Big Data DAY 13

Spark 2.0 in Scala 系列第 13 篇

技術 [Spark-Day13](core API實戰篇)Partition

今天來聊聊Spark的partition，也就是RDD的DD(Distributed dataset)。基本上一個RDD會有數個不等的partition所組成，...

joechh ‧ 2016-12-28

2 Like 0 留言 3615 瀏覽

鐵人賽 Big Data DAY 12

Spark 2.0 in Scala 系列第 12 篇

技術 [Spark-Day12](core API實戰篇)聚合函數-2

看懂Aggregate之後，再來的就簡單多了，繼續討論其他的聚合函數吧，還有： AggreByKey Fold FoldByKey Reduce Reduce...

joechh ‧ 2016-12-27

1 Like 0 留言 3755 瀏覽

鐵人賽 Big Data DAY 11

Spark 2.0 in Scala 系列第 11 篇

技術 [Spark-Day11](core API實戰篇)聚合函數-1

聚合(Aggregation)功能無論是資料處理或分析中不可或缺的功能。無論是最常見的avg、sum、min、max，count等或是自定義的聚合，接下來就來個...

joechh ‧ 2016-12-26

2 Like 0 留言 3117 瀏覽

鐵人賽 Big Data DAY 10

Spark 2.0 in Scala 系列第 10 篇

技術 [Spark-Day10](Scala番外篇) Currying

聖誕快樂~ 今天就來說說Scala的Currying吧，Scala官方說法為： Methods may define multiple parameter l...

joechh ‧ 2016-12-25

2 Like 3 留言 3430 瀏覽

鐵人賽 Big Data DAY 9

Spark 2.0 in Scala 系列第 9 篇

技術 [Spark-Day9](core API實戰篇) Pair RDD-2

繼續進行昨天未完成的課題我們想要進行以下分析：消費次數最多的贈予一支bear doll（已完成）給予一次購買兩隻以上的Barbie交易結帳金額95%折的...

joechh ‧ 2016-12-24

2 Like 1 留言 4903 瀏覽

鐵人賽 Big Data DAY 8

Spark 2.0 in Scala 系列第 8 篇

技術 [Spark-Day8](core API實戰篇) Pair RDD-1

再來準備花幾天的時間提一下幾個Spark核心概念： PairRDD Partition Aggregation類操作 RDD相依性累加器與廣播變數 Sp...

joechh ‧ 2016-12-23

4 Like 2 留言 7554 瀏覽

鐵人賽 Big Data DAY 7

Spark 2.0 in Scala 系列第 7 篇

技術 [Spark-Day7](基礎篇) Broadcast與透過Spark-submit遞交工作

還記不記得昨天用forExpression產生一個優雅的employees Set？並且用於UDF中？ val employees = Set() ++...

joechh ‧ 2016-12-22

3 Like 1 留言 4185 瀏覽

鐵人賽 Big Data DAY 6

Spark 2.0 in Scala 系列第 6 篇

技術 [Spark-Day6](基礎篇) For expression、 Set 、 SparkSQL UDF by Use Case

延續昨天的案例，昨天的案例中，我們已經可以順利取得某類GitHub Event(例如PushEvent)的所有成員，並且進行一些額外操作(例如GroupBy,...

joechh ‧ 2016-12-21

3 Like 1 留言 7203 瀏覽

鐵人賽 Big Data DAY 5

Spark 2.0 in Scala 系列第 5 篇

技術 [Spark-Day5](基礎篇) 撰寫第1支Spark App

spark-shell玩夠了，開始寫標準的APP吧。這支簡易的應用會load一份json檔案並透過SparkSQL操作一些查詢。sparkSQL厲害的地方之一就...

joechh ‧ 2016-12-20

2 Like 1 留言 5689 瀏覽

鐵人賽 Big Data DAY 4

Spark 2.0 in Scala 系列第 4 篇

技術 [Spark-Day4](基礎篇) Scala & RDD中的Implicit Conversion

往下介紹之前，先講解一下Scala中的Implicit Conversion(隱式轉換)，因為Spark大量使用宣告方式，所以了解Implicit Conver...

joechh ‧ 2016-12-19