iT邦幫忙

2023 iThome 鐵人賽

DAY 2
0

大數據 4V

昨天的文章中有提到,高中時的我覺得大數據就是非常大量的數據,這想法不完全錯,但也不完整,當時的我只關注了數據量 (Volume),事實上,大數據有4個特性,分別是:

  • Volume 數據量
    這點是最直觀的,隨著儲存空間越來越便宜,資料得以被大量的保留下來,根據IDC的說法,新產生的數據量每兩年翻一倍,這些數據來可能來自於各種地方,如社交媒體的貼文、IoT裝置的傳感器或伺服器的日誌紀錄等。
  • Variety 數據多樣性
    指數據有各式各樣的型態,依其結構可以劃分為結構化資料半結構化資料非結構化資料
    • 結構化資料
      具有嚴格的結構規範,通常由行、列、表格等要件組成,類似於關聯式資料表,易於存儲與處理,如:SQL、EXCEL
    • 半結構化資料
      介於結構化和非結構化資料之間的數據類型,它們具有某種結構,但不需要遵循嚴格的結構規範,如:XML、JSON
    • 非結構化資料
      沒有固定結構或模式的數據,在存儲與處理上較為複雜,如:文本、圖像、音頻、視頻
  • Veracity 真實性
    這裡的真實性其實包含了兩個概念,分別是資料的品質可用性,其中,資料品質指數據的精準性、完整性與一致性等,資料可用性則是指數據能被使用的程度,相對於小規模數據,大數據要在數據量龐大的情況下維持資料的品質與可用性,其難度增加不少。
  • Velocity 速度
    指數據生成的速度以及數據移動的速度,對於某些具有時效性的數據(如股價資訊、異常檢測等)尤其重要,而這也是大數據與傳統資料處理技術的重大差別。

這四個特性合稱為 4V,有些人會加入 Value,指能在大數據中挖掘出有用的價值,當作 5V,但本質上與 4V 差不多。

大數據技術

大數據的技術大致上可以分為4個層次,分別是數據採集、數據存儲與管理、數據處理與分析 和 數據隱私與安全,其中以數據存儲與管理數據處理與分析尤其重要 (技術上來說):

  1. 數據採集
    數據採集是大數據技術的基礎,這些數據的來源包括傳感器(IoT)、社交媒體、行動裝置以及日誌文件等。
  2. 數據存儲與管理
    數據存儲與管理是大數據技術的核心技術,傳統的關聯數據庫缺乏水平擴展的能力,因此出現了分散式的存儲系統,根據數據存儲的層級,又可以分為分散式檔案存儲系統 (Distributed File System)分散式資料庫 (Distributed Database)
  3. 數據處理與分析
    數據處理與分析也是大數據技術的核心技術,採用分散式處理框架來進行批處理流處理。數據經過 ETL 後,搭配統計學、機器學習等技術,即可從數據中提取出有價值的資訊。
  4. 數據隱私與安全
    大數據技術的最後一層是數據隱私與安全,當企業內部在決定是否採用某項技術時,考量的第一個重點肯定不會是技術層面,而是公司的機密資訊是否安全無虞,因此數據加密、權限控制、日誌監控等也是相當重要的一環。

預告

說實在的今天的內容有點水,我自己都有點不好意思 🤫
Anyway,明天應該不會這麼水了,要介紹的是大數據計算中的批處理流處理

參考資料

《大數據技術原理與應用:概念、存儲、處理、分析與應用》- 林子雨


上一篇
Day01 - 這裡數據好多,我好害怕
下一篇
Day03 - 大數據計算:批處理與流處理
系列文
30天認識主流大數據框架:Hadoop + Spark + Flink30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言