大數據 4V
昨天的文章中有提到,高中時的我覺得大數據就是非常大量的數據,這想法不完全錯,但也不完整,當時的我只關注了數據量 (Volume),事實上,大數據有4個特性,分別是:
-
Volume 數據量
這點是最直觀的,隨著儲存空間越來越便宜,資料得以被大量的保留下來,根據IDC的說法,新產生的數據量每兩年翻一倍,這些數據來可能來自於各種地方,如社交媒體的貼文、IoT裝置的傳感器或伺服器的日誌紀錄等。
-
Variety 數據多樣性
指數據有各式各樣的型態,依其結構可以劃分為結構化資料、半結構化資料與非結構化資料。
-
結構化資料
具有嚴格的結構規範,通常由行、列、表格等要件組成,類似於關聯式資料表,易於存儲與處理,如:SQL、EXCEL
-
半結構化資料
介於結構化和非結構化資料之間的數據類型,它們具有某種結構,但不需要遵循嚴格的結構規範,如:XML、JSON
-
非結構化資料
沒有固定結構或模式的數據,在存儲與處理上較為複雜,如:文本、圖像、音頻、視頻
-
Veracity 真實性
這裡的真實性其實包含了兩個概念,分別是資料的品質與可用性,其中,資料品質指數據的精準性、完整性與一致性等,資料可用性則是指數據能被使用的程度,相對於小規模數據,大數據要在數據量龐大的情況下維持資料的品質與可用性,其難度增加不少。
-
Velocity 速度
指數據生成的速度以及數據移動的速度,對於某些具有時效性的數據(如股價資訊、異常檢測等)尤其重要,而這也是大數據與傳統資料處理技術的重大差別。
這四個特性合稱為 4V,有些人會加入 Value,指能在大數據中挖掘出有用的價值,當作 5V,但本質上與 4V 差不多。
大數據技術
大數據的技術大致上可以分為4個層次,分別是數據採集、數據存儲與管理、數據處理與分析 和 數據隱私與安全,其中以數據存儲與管理、數據處理與分析尤其重要 (技術上來說):
-
數據採集
數據採集是大數據技術的基礎,這些數據的來源包括傳感器(IoT)、社交媒體、行動裝置以及日誌文件等。
-
數據存儲與管理
數據存儲與管理是大數據技術的核心技術,傳統的關聯數據庫缺乏水平擴展的能力,因此出現了分散式的存儲系統,根據數據存儲的層級,又可以分為分散式檔案存儲系統 (Distributed File System) 與分散式資料庫 (Distributed Database)。
-
數據處理與分析
數據處理與分析也是大數據技術的核心技術,採用分散式處理框架來進行批處理或流處理。數據經過 ETL 後,搭配統計學、機器學習等技術,即可從數據中提取出有價值的資訊。
-
數據隱私與安全
大數據技術的最後一層是數據隱私與安全,當企業內部在決定是否採用某項技術時,考量的第一個重點肯定不會是技術層面,而是公司的機密資訊是否安全無虞,因此數據加密、權限控制、日誌監控等也是相當重要的一環。
預告
說實在的今天的內容有點水,我自己都有點不好意思 🤫
Anyway,明天應該不會這麼水了,要介紹的是大數據計算中的批處理和流處理!
參考資料
《大數據技術原理與應用:概念、存儲、處理、分析與應用》- 林子雨