iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

6 Like 1 留言 38549 瀏覽

達標好文技術 Apache Spark 入門(1)

簡介 Apache Spark 是一個強大的大數據處理平臺，各位也知道，現在大數據的資料規模和產生速度都是 TB or PB 級的，所以要有一個強大的平台來協助...

CF ‧ 2018-04-30

0 Like 0 留言 32376 瀏覽

鐵人賽 Big Data DAY 28

Spark 2.0 in Scala 系列第 28 篇

技術 [Spark-Day28](Spark好友篇)一次搞定Cassandra安裝與基礎查詢操作

趁最後幾天衝一下我很愛的分散式資料庫Cassandra。如果要用30秒的電梯演講說明Cassandra的優點，我會說： Cassandra是個開放源碼、分散式...

joechh ‧ 2017-01-12

1 Like 0 留言 30239 瀏覽

技術 [Spark] 從 Spark UI 找效能調校的目標

最近因為種種原因，複習了Spark的架構和概念，參考的是歐萊禮的Spark學習手冊，筆記在這裡。一般來說，有大量資料運算需求的Cluster比較會需要常做效能...

跑跑貓力歐 ‧ 2017-04-26

1 Like 0 留言 28180 瀏覽

技術 [Spark] 讀取MySQL大Table的效能問題

在測試從 Spark Shell讀取MySQL一張Large Table時，發生了Out of memory和connection timeout問題，記錄一下...

跑跑貓力歐 ‧ 2017-06-20

2 Like 1 留言 27552 瀏覽

鐵人賽 Big Data DAY 30

Spark 2.0 in Scala 系列第 30 篇

技術 [Spark-Day30](完結篇)資料工程師之路

從我的文章就大慨可以看出，我的內容很偏資料工程，而不是所謂的資料科學，更沒有講到半點ML或是DP。因為我是一位熱愛資料處理的（資料工程師）數據領域黑手XD。雖然...

joechh ‧ 2017-01-14

5 Like 5 留言 19991 瀏覽

達標好文技術 MacBook Pro初心者經驗分享by a Java programmer

由於公司對於員工自購筆電有補助, 想來想去自然是挑不二價的ＭacBook Pro 啦！入手時間是端午過後, 本文主要是分享這 10 來天將ＭacBook P...

Darwin Watterson ‧ 2018-07-01

0 Like 1 留言 18633 瀏覽

鐵人賽 Big Data DAY 29

Spark 2.0 in Scala 系列第 29 篇

技術 [Spark-Day29](Spark好友篇) Cassandra with Spark長篇

昨天完成Cassandra的簡易安裝，並在cqlsh中走過基本的CRUD、UDT以及一些稍微特別的操作馬拉松後，今天當然要進一步用Spark與Cassandra...

joechh ‧ 2017-01-13

3 Like 1 留言 18132 瀏覽

鐵人賽 Big Data DAY 1

Spark 2.0 in Scala 系列第 1 篇

達標好文技術 [Spark-Day1](基礎篇)不囉唆，直接上Spark-shell

先來張Spark 2.0賀圖，這樣也算直上Spark-shell了......XD 開發環境簡述 Java8 Hadoop2.7.2(為了HDFS) Spar...

joechh ‧ 2016-12-16

3 Like 0 留言 18036 瀏覽

鐵人賽 Big Data DAY 2

Spark 2.0 in Scala 系列第 2 篇

技術 [Spark-Day2](基礎篇) RDD概念與map操作

前一天我們建立了一些變數，如lines、bsdLines等，有沒有感覺他們跟一般變數沒兩樣呢？在Spark中這些變數被稱為RDD(Resilient Distr...

joechh ‧ 2016-12-17

0 Like 0 留言 10359 瀏覽

鐵人賽 Big Data DAY 26

Spark 2.0 in Scala 系列第 26 篇

技術 [Spark-Day26](Spark 好友篇) Streaming with Kafka初探

Spark Streaming支援多種資料來源，最基本內建常用的有：檔案輸入串流 (File input Stream) Socket輸入串流 (Socke...

joechh ‧ 2017-01-10

2 Like 0 留言 10060 瀏覽

鐵人賽 Big Data DAY 3

Spark 2.0 in Scala 系列第 3 篇

技術 [Spark-Day3](基礎篇) RDD概念與flatMap操作 by Use Case

以前在學程式的時候有沒有感覺老師一直講API很無聊啊，所以我們還是要套個實際範例啊!!後續的內容會有許多XXX概念 by Use Case系列，學了總是要用才有...

joechh ‧ 2016-12-18

2 Like 1 留言 10051 瀏覽

技術 Apache Spark 入門(2)

這一篇我們要來講解 Spark 的運算機制，我本人是寫 Python的，所以下面都會使用 Python 來講解。 Transformation and Acti...

CF ‧ 2018-05-06

0 Like 0 留言 10040 瀏覽

鐵人賽 Big Data DAY 27

Spark 2.0 in Scala 系列第 27 篇

技術 [Spark-Day27](Spark 好友篇)SparkStreaming With Kafka

我們昨天已經看過如何在Scala中獨立使用Kafka。以我之前的經驗，Kafka Producer的部份有比較多的可能會與其他系統而不是Spark整合，這時候就...

joechh ‧ 2017-01-11

0 Like 0 留言 9906 瀏覽

活動從零開始的一日實戰 PySpark 生活！

大數據時代，絕對不能錯過的一日實戰工作坊由老司機帶著你快速上手，肯定是你上手 Spark 的絕佳時機！ Spark 是處理大數據最熱門的框架之一，透過 P...

techlearn ‧ 2018-04-18

6 Like 1 留言 9343 瀏覽

達標好文技術 Spark SQL實測 MySQL, MSSQL, Oracle "SELECT語法"

任何結構性的資料(ex:Json)在Spark SQL下,都可以透過createOrReplaceTempView("view名稱") 告知...

Darwin Watterson ‧ 2018-05-11

3 Like 0 留言 9237 瀏覽

技術 PySpark Streaming 接收MQTT發佈的資料！

嗨，大家好，今天要介紹的是關於透過Python完成Spark-Streaming，基本的Spark概念和MQTT這邊可能不會多做解釋，就當作大家已經有基本的RD...

plusone ‧ 2018-05-08

0 Like 0 留言 7365 瀏覽

鐵人賽 Big Data DAY 13

Spark 2.0 in Scala 系列第 13 篇

技術 [Spark-Day13](core API實戰篇)Partition

今天來聊聊Spark的partition，也就是RDD的DD(Distributed dataset)。基本上一個RDD會有數個不等的partition所組成，...

joechh ‧ 2016-12-28

4 Like 2 留言 7364 瀏覽

鐵人賽 Big Data DAY 7

Spark 2.0 in Scala 系列第 7 篇

技術 [Spark-Day7](基礎篇) Broadcast與透過Spark-submit遞交工作

還記不記得昨天用forExpression產生一個優雅的employees Set？並且用於UDF中？ val employees = Set() ++...

joechh ‧ 2016-12-22

1 Like 0 留言 7245 瀏覽

鐵人賽 Big Data DAY 18

Spark 2.0 in Scala 系列第 18 篇

技術 [Spark-Day18](Spark Streaming篇)HDFS、Kafka環境設定

終於進入下一個主題：Spark Family的Spark Streaming篇~ 講解過程中要從一些外部系統接資料，特別是HDFS跟Kafka，所以免不了要提一...

joechh ‧ 2017-01-02

3 Like 1 留言 7033 瀏覽

鐵人賽 Big Data DAY 5

Spark 2.0 in Scala 系列第 5 篇

技術 [Spark-Day5](基礎篇) 撰寫第1支Spark App

spark-shell玩夠了，開始寫標準的APP吧。這支簡易的應用會load一份json檔案並透過SparkSQL操作一些查詢。sparkSQL厲害的地方之一就...

joechh ‧ 2016-12-20

6 Like 2 留言 6039 瀏覽

鐵人賽其他技術 DAY 30

動物園之路系列第 27 篇

技術動物園之路 -30- 大象的未來 Spark (終)

終於到最後一天了，昨天的Spark還沒打完，一樣按照之前的方式，一天寫概念，另一天帶實做。今天的實作可能沒辦法帶完，不過我還是會盡力。之後會把之前缺的部分補...

fantasylight ‧ 2013-10-15

2 Like 1 留言 5544 瀏覽

鐵人賽 Big Data DAY 4

Spark 2.0 in Scala 系列第 4 篇

技術 [Spark-Day4](基礎篇) Scala & RDD中的Implicit Conversion

往下介紹之前，先講解一下Scala中的Implicit Conversion(隱式轉換)，因為Spark大量使用宣告方式，所以了解Implicit Conver...

joechh ‧ 2016-12-19

1 Like 0 留言 5343 瀏覽

技術工業4.0最後一哩路:AI大數據

這幾年AI及工業4.0風起雲湧，報章雜誌紛紛報導，連一些大老闆打高爾夫球時，彼此都要聊聊AI及工業4.0，但台灣很多工廠目前還停留在工業3.0，一步步地導入才...

papayuan ‧ 2019-01-30

0 Like 0 留言 5199 瀏覽

鐵人賽 Big Data DAY 22

Spark 2.0 in Scala 系列第 22 篇

技術 [Spark-Day22](Spark Streaming篇) mapWithState by Use Case

Spark 1.6版時提出了新的stateful函式：mapWithState。本篇延續之前的範例，然後介紹mapWithState。我們建立了兩個RDD：...

joechh ‧ 2017-01-06

0 Like 0 留言 5043 瀏覽

鐵人賽 Big Data DAY 23

Spark 2.0 in Scala 系列第 23 篇

技術 [Spark-Day23](Spark Streaming篇)Window Operation by Use Case

延續先前的範例，假設我只想看見一點的股票交易資料勒？例如：最近一個小時內，總交易次數總為何？交易量最高的五支股票為何？ OK，來分析問題。首先每批資料的區...

joechh ‧ 2017-01-07

0 Like 0 留言 4921 瀏覽

鐵人賽 Big Data DAY 25

Spark 2.0 in Scala 系列第 25 篇

技術 [Spark-Day25](Scala番外篇) Extrator、Case Class、Sealed Class大亂鬥

看完最直接的pattern match基礎應用，稍微講一些周邊作為番外的Ending吧，常常與pattern match一起提到的概念大概有Extrator、C...

joechh ‧ 2017-01-09

2 Like 1 留言 4758 瀏覽

鐵人賽 Big Data DAY 8

Spark 2.0 in Scala 系列第 8 篇

技術 [Spark-Day8](core API實戰篇) Pair RDD-1

再來準備花幾天的時間提一下幾個Spark核心概念： PairRDD Partition Aggregation類操作 RDD相依性累加器與廣播變數 Sp...

joechh ‧ 2016-12-23

1 Like 0 留言 4643 瀏覽

鐵人賽 Cloud、Big Data DAY 29

分散式資料處理，以Stream Computing為例系列第 29 篇

技術 Day 29: 從Stream到Micro batch

昨天講到 pure stream computing 不能提供 exactly-once semantics，不過有許多應用都需要 exactly-once s...

ccshih ‧ 2014-10-27

1 Like 0 留言 4426 瀏覽

鐵人賽 Big Data DAY 19

Spark 2.0 in Scala 系列第 19 篇

技術 [Spark-Day19](Spark Streaming篇)Streaming初探

設定完了，開始來看看Spark Streaming到底是啥吧！基本上寫Streaming我會比較習慣在IDE中，所以回到Intellij + Scala Plu...

joechh ‧ 2017-01-03

2 Like 0 留言 4334 瀏覽

鐵人賽 Big Data DAY 21

Spark 2.0 in Scala 系列第 21 篇

技術 [Spark-Day21](Spark Streaming篇)Stateful Streaming

昨天我們看了SparkingStreamingContext的起手式與一個stateless的use case。基本上，我認為stateless不用處理關注其他...

joechh ‧ 2017-01-05

達標好文 技術 Apache Spark 入門(1)