Day3 | 大數據的處理-2 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2019 iT 邦幫忙鐵人賽

DAY 3

自我挑戰組

Day3 | 大數據的處理-2

2019鐵人賽

2383 瀏覽

昨天已經提及大數據處理的前兩個步驟：數據的收集及數據的儲存與管理，接著要探討接下來的三個步驟

數據的處理分析
分佈式處理方式是大數據處理各環節的通用處理方法。列舉幾個常見的處理分析平台：
(1) Apache Spark：Spark使用記憶體內的運算技術，不同於 Hadoop 的 MapReduce 會在執行完工作後將中介資料存放到磁碟中。且Spark 在記憶體內執行程式的運算速度比 Hadoop的運算速度快上 100 倍，即便是執行程式於硬碟時，Spark 也能快上 10 倍速度。
(2) Hadoop：Hadoop 的兩大主要功能是儲存（Store）及處理（Process）
數據的開放
數據的應用
將數據圖表化，讓人們更能理解圖表的意義，更能加強對數據處理的效率。
Jupyter就是一個數據可是化的一個工具，其透過十多種編譯程式實現大數據分析、數據圖像化的目標。