前置作業 Java 7 以上,建議安裝 Java 8 Hadoop 3.x.y Hive 安裝 首先要到 Hive Releases 下載 binary 壓...
Hive 使用 SQL-Like 查詢語言(Hive SQL),其語法與一般的 SQL 語法非常相似,唯一要注意的是,之前有提過 HDFS 只支援寫入、讀取與刪...
為什麼需要 Spark ? MapReudce 的出現雖然解決了大數據離線計算的需求,但其有一些缺點存在,比如: 高延遲:MapReudce 在計算時通常...
前言昨天的文章介紹了 Spark 的架構,還沒看過的人可以先看看:Day13 - Spark 介紹 (1):簡介與架構 什麼是 RDD ? 昨天有提到,Re...
前言昨天介紹了 RDD,還沒看過的人可以先點這邊看 RDD 的介紹:Day14 - Spark 介紹 (2):RDD 什麼是 Spark SQL? Spar...
前言這篇文章會介紹如何安裝 Spark 並進行適當的配置,還不清楚 Spark 是什麼的人可以先看看 Spark 的介紹系列:Day13 - Spark 介紹...
前言這篇文章會介紹 PySpark (Spark in Python),因此要先安裝好 Python 與 Spark,還沒安裝好 Spark 的人可以先去看看...
前言昨天介紹了 PySpark 的基礎,還沒看過的可以先去看一下:Day17 - PySpark (1):Basis 程式碼這次參賽的程式碼都會放在 Bi...
前言前幾天介紹了 PySpark 的基礎與 SQL 語法,還沒看過的可以先去看一下:Day17 - PySpark (1):BasisDay18 - PySp...
前言再昨天的文章中,我們簡單介紹了協同過濾推薦,並用 DayaFrame APIs 來進行實做,大家可以先看看這篇文章再回來:Day19 - PySpark...