iT邦幫忙

第 11 屆 iThome 鐵人賽

DAY 6
0
自我挑戰組

大數據系列 第 6

DAY6 大數據的處理過程-2

  1. 數據導入和數據清理
    採集完成的數據中,通常都會有不少是重複或無用的,這種時候就需要通過數據對數據進行處理,把這些來自前端的數據導入集中的大型分布式資料庫來進行簡單的清洗和預處理。
    在這個過程中導入的大量數據量就是最大的挑戰,常常會達到百兆甚至千兆。

  2. 數據統計和分析
    統計和分析幾乎都需要工具來處理,而這個過程中最大的重點就是目的清晰,並按照一定的規則去做分類及彙整,這樣才能得到有效的分析。
    在這方面,一些實時性需求會用到EMC 的GreenPlum、Oracle的Exadata,以及基於MySQL的列式存儲Infobright等,而一些批處理,或者基於半結構化數據的需求可以使用Hadoop。
    這個步驟主要特點和挑戰是分析涉及的數據量大,同時,這個步驟對系統資源,特別是I/O會有極大的占用。

  3. 數據挖掘應用

資料來源:https://kknews.cc/tech/l42k3g.html
https://kknews.cc/tech/lxb8y4g.html


上一篇
DAY5 大數據的處理過程-1
下一篇
DAY7 大數據開發常用的程式語言
系列文
大數據30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言