iT邦幫忙

2024 iThome 鐵人賽

DAY 20
0
AI/ ML & Data

菜就多練之我叫小賀逃離DS新手村系列 第 20

Day 20 多如牛毛-大數據分析

  • 分享至 

  • xImage
  •  

Big Data🐭

Big Data指的是無法用傳統數據處理技術進行運算、分析的超大型data sets。Big data具有四個主要特徵,通常稱為「四V」:

  1. 數據量大 (Volume):資料集的規模龐大,傳統的數據處理工具無法有效處理。
  2. 數據種類多 (Variety):數據來源多樣,可能包括結構化、非結構化和半結構化數據。
  3. 數據變化快 (Velocity):數據生成和處理的速度極快,要求系統能夠實時或接近實時地處理。
  4. 數據真實性 (Veracity):數據的質量和真實性參差不齊,需要進行仔細的數據清洗和驗證。

Big Data Analytics Tools🐂

1. Apache Hadoop

Apache Hadoop是一個開源框架,主要用於儲存和處理大型資料集。Hadoop的最大特點是使用分散式儲存(Distributed storage)和平行處理(Parallel processing),將大型資料拆分成較小的批次來儲存和運算。

Hadoop Distributed File System (HDFS)
HDFS與其他分散式檔案系統的不同之處在於,它具有高容錯性,設計用於低成本的硬體設備。HDFS透過數據的複製來確保資料的安全,即使在硬體故障時也能維持資料的完整性。

Hadoop MapReduce
MapReduce是一個處理框架,將資料分割成較小的部分,並在多個節點上平行處理,然後再將結果匯總起來。MapReduce包括兩個主要階段:“Map”階段負責將資料分割並處理,而“Reduce”階段則將各個部分的結果彙總成最終結果。

Apache Pig
Pig是一種高階語言,用於處理巨量資料並進行數據分析。Pig讓使用者可以用更簡單的語法來編寫複雜的資料處理程式,並且它可以與MapReduce整合。

2. Apache Hive

Hive是一個data warehouse system,主要用於在Hadoop上進行結構化數據的管理和查詢。Hive同樣具有分散式和高容錯性,並且使用類似SQL的語言(HiveQL),這使得使用者能夠輕鬆地對大數據進行批量查詢和分析。

3. Apache Spark

Spark用於處理巨量資料,並且支援多種高階語言,如Python、R等。Spark的模組化設計使其能夠處理不同類型的工作負載,包括:

Spark SQL:用於結構化資料處理的模組,使得使用者可以使用SQL語法進行資料查詢和操作。

MLlib:提供了多種機器學習算法,如分類、回歸、聚類等,並且能夠簡化大規模機器學習模型的開發和部署。

Spark Streaming:允許處理即時資料流,使得Spark可以在資料進入系統時即時處理和分析。


題外話😂

現在騎車能不停室外就不停室外,一個下午過後放在外面的安全帽直接變水瓢...


參考資料💯

Apache Hadoop
Apache Spark


上一篇
Day 19 在小小的花園裡面挖呀挖呀挖-資料探勘
下一篇
Day 21 能言善道-自然語言處理
系列文
菜就多練之我叫小賀逃離DS新手村30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言