iT邦幫忙

2019 iT 邦幫忙鐵人賽

DAY 3
0
自我挑戰組

大數據概念系列 第 3

Day3 | 大數據的處理-2

昨天已經提及大數據處理的前兩個步驟:數據的收集及數據的儲存與管理,接著要探討接下來的三個步驟

  1. 數據的處理分析
    分佈式處理方式是大數據處理各環節的通用處理方法。列舉幾個常見的處理分析平台:
    (1) Apache Spark:Spark使用記憶體內的運算技術,不同於 Hadoop 的 MapReduce 會在執行完工作後將中介資料存放到磁碟中。且Spark 在記憶體內執行程式的運算速度比 Hadoop的運算速度快上 100 倍,即便是執行程式於硬碟時,Spark 也能快上 10 倍速度。
    (2) Hadoop:Hadoop 的兩大主要功能是儲存(Store)及處理(Process)

  2. 數據的開放

  3. 數據的應用
    將數據圖表化,讓人們更能理解圖表的意義,更能加強對數據處理的效率。
    Jupyter就是一個數據可是化的一個工具,其透過十多種編譯程式實現大數據分析、數據圖像化的目標。

資料來源:
https://zhuanlan.zhihu.com/p/35893829
https://www.inside.com.tw/2015/03/19/big-data-5-must-have-skills


上一篇
Day2 | 大數據的處理-1
下一篇
Day4 | 大數據為什麼用python?
系列文
大數據概念30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言