資料處理與分析
傳統的處理方式就是常聽到的CRUD,新增、查詢、刪除、修改,資料庫也是在做這些動作,然後再進行統計,但是大數據因為資料多元,需要做不同來源的整合,形成資料倉儲(Data Warehousing),經過分析最後再呈現。大數據處理過程主要有四項:
• 數據採集 - 利用多個資料庫來接收客戶端傳送的數據,主要問題是用戶同時訪問的連接數可能過高,所以資料庫要好好佈署
• 預處理 - 將來自前端的數據導入到集中的大型分散式資料庫並在導入基礎上做清洗的工作
• 數據統計與分析 - 需運用多種工具進行,如:可視化工具、spss工具、演算法模型等
• 數據挖掘 - 主要是為了達到預測的效果,從大量不完全且模糊的數據中找出未知又潛在有用的資訊
在分析之前,有一個很重要的步驟就是預處理(Preprocessing),因為真實世界中的資料有很多都是髒資料如:
• 不完整 - 必填的欄位是空的,如:設計系統沒有及時發現該資料應設為必填、早期還沒電子化的資料欄位有缺
• 有雜質 - 資料有錯誤或不合理,如:錯誤日期、年齡
• 不一致 - 如:年齡和生日不符、評分系統給分方式不一
資料裡一旦混入了髒資料,那就會出現沒有品質的結果,這就是我們常說的Garbage in Garbage out,以下就是預處理的主要工作:
• 資料清理 - 超出合理範圍的資料拿掉,不一致的資料在核對後要把錯的拿掉
• 資料整合 - 把不同來源的資料做整合,當然整合後也要確認資料是乾淨的
• 資料轉換 - 資料要做好正規化(normalization:把資料參數統一轉到0~1的範圍)及聚合(aggregation:將眾多細碎的資料集合合併,產生新的意義)
• 資料減量 - 不一定每一筆資料都是有用的,有可能會有重複或是沒有意義的情形,所以要透過切割或分類來精簡資料
• 資料數位化 - 對非數值的資料做數位及量化,方便電腦做分析
參考資料
https://kknews.cc/zh-tw/tech/l42k3g.html
https://wiki.mbalib.com/zh-tw/%E5%A4%A7%E6%95%B0%E6%8D%AE
http://3smarket-info.blogspot.com/2018/12/blog-post_16.html → 大數據處理過程
https://www.youtube.com/watch?v=gKYfyNU3bp0&list=PLdSWxzxDhd3GPyFpnX5LaREQbcdSgSDHz&index=4