iT邦幫忙

2019 iT 邦幫忙鐵人賽

DAY 2
0

大數據的處理
https://scontent.ftpe7-2.fna.fbcdn.net/v/t1.0-9/43880094_2070663019652236_9175075885525499904_n.jpg?_nc_cat=104&oh=faf196aeb69c60a12fc68accac5f81f6&oe=5C54F444
圖為大數據技術棧

1. 數據的收集:
大量的離線收集是使用Hadoop,Hahoop是目前最多人使用的一個處理平台。而建立一個大數據收集瓶台必須要具備以下三點:
(1) 多樣化數據採集能力
(2) 可視化快速配置能力:提供人性化的介面設計,提高效率並降低成本
(3) 統一調度管控能力:可支援Hadoop的多種技術組件、關係型資料庫存儲過程、 shell腳本等、支援多種調度策略(時間/介面通知/手工)

2. 數據的儲存與管理
主要有3種技術,分別為結構化數據(例如:MySQL、Oracle)、半結構化和非結構化數據、結構化和非結構化混合的大數據。
(1) 結構化數據(Structured data):具有固定格式及明確定義的資料庫,優點是容易處理。
(2) 非結構化數據(Structured data):與結構化相反,簡單來說就是雜亂的資料。
(3) 半數據化結構(Semi-structured data):介於結構化與非結構化之間,並非每筆資料都有相同的欄位。

還有三個步驟,會在下一篇探討

資料來源:http://epaper.gotop.com.tw/PDFSample/ACD014000.pdf
https://bigdatafinance.tw/index.php/tech/440-6
http://www.finereport.com/tw/knowledge/acquire/whychooseit.html


上一篇
淺談大數據
下一篇
大數據的處理-2
系列文
大數據概念13

尚未有邦友留言

立即登入留言