Day02 - 初探大數據 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2023 iThome 鐵人賽

DAY 2

AI & Data

30天認識主流大數據框架：Hadoop + Spark + Flink系列第 2 篇

Day02 - 初探大數據

15th鐵人賽大數據 4v

RiceBugJ

2023-09-17 02:24:28

3837 瀏覽

分享至

大數據 4V

昨天的文章中有提到，高中時的我覺得大數據就是非常大量的數據，這想法不完全錯，但也不完整，當時的我只關注了數據量 (Volume)，事實上，大數據有4個特性，分別是：

Volume 數據量
這點是最直觀的，隨著儲存空間越來越便宜，資料得以被大量的保留下來，根據IDC的說法，新產生的數據量每兩年翻一倍，這些數據來可能來自於各種地方，如社交媒體的貼文、IoT裝置的傳感器或伺服器的日誌紀錄等。
Variety 數據多樣性
指數據有各式各樣的型態，依其結構可以劃分為結構化資料、半結構化資料與非結構化資料。
- 結構化資料
  具有嚴格的結構規範，通常由行、列、表格等要件組成，類似於關聯式資料表，易於存儲與處理，如：SQL、EXCEL
- 半結構化資料
  介於結構化和非結構化資料之間的數據類型，它們具有某種結構，但不需要遵循嚴格的結構規範，如：XML、JSON
- 非結構化資料
  沒有固定結構或模式的數據，在存儲與處理上較為複雜，如：文本、圖像、音頻、視頻
Veracity 真實性
這裡的真實性其實包含了兩個概念，分別是資料的品質與可用性，其中，資料品質指數據的精準性、完整性與一致性等，資料可用性則是指數據能被使用的程度，相對於小規模數據，大數據要在數據量龐大的情況下維持資料的品質與可用性，其難度增加不少。
Velocity 速度
指數據生成的速度以及數據移動的速度，對於某些具有時效性的數據（如股價資訊、異常檢測等）尤其重要，而這也是大數據與傳統資料處理技術的重大差別。

這四個特性合稱為 4V，有些人會加入 Value，指能在大數據中挖掘出有用的價值，當作 5V，但本質上與 4V 差不多。

大數據技術

大數據的技術大致上可以分為4個層次，分別是數據採集、數據存儲與管理、數據處理與分析和數據隱私與安全，其中以數據存儲與管理、數據處理與分析尤其重要 (技術上來說)：

數據採集
數據採集是大數據技術的基礎，這些數據的來源包括傳感器(IoT)、社交媒體、行動裝置以及日誌文件等。
數據存儲與管理
數據存儲與管理是大數據技術的核心技術，傳統的關聯數據庫缺乏水平擴展的能力，因此出現了分散式的存儲系統，根據數據存儲的層級，又可以分為分散式檔案存儲系統 (Distributed File System) 與分散式資料庫 (Distributed Database)。
數據處理與分析
數據處理與分析也是大數據技術的核心技術，採用分散式處理框架來進行批處理或流處理。數據經過 ETL 後，搭配統計學、機器學習等技術，即可從數據中提取出有價值的資訊。
數據隱私與安全
大數據技術的最後一層是數據隱私與安全，當企業內部在決定是否採用某項技術時，考量的第一個重點肯定不會是技術層面，而是公司的機密資訊是否安全無虞，因此數據加密、權限控制、日誌監控等也是相當重要的一環。