Big Data指的是無法用傳統數據處理技術進行運算、分析的超大型data sets。Big data具有四個主要特徵,通常稱為「四V」:
Apache Hadoop是一個開源框架,主要用於儲存和處理大型資料集。Hadoop的最大特點是使用分散式儲存(Distributed storage)和平行處理(Parallel processing),將大型資料拆分成較小的批次來儲存和運算。
Hadoop Distributed File System (HDFS)
HDFS與其他分散式檔案系統的不同之處在於,它具有高容錯性,設計用於低成本的硬體設備。HDFS透過數據的複製來確保資料的安全,即使在硬體故障時也能維持資料的完整性。
Hadoop MapReduce
MapReduce是一個處理框架,將資料分割成較小的部分,並在多個節點上平行處理,然後再將結果匯總起來。MapReduce包括兩個主要階段:“Map”階段負責將資料分割並處理,而“Reduce”階段則將各個部分的結果彙總成最終結果。
Apache Pig
Pig是一種高階語言,用於處理巨量資料並進行數據分析。Pig讓使用者可以用更簡單的語法來編寫複雜的資料處理程式,並且它可以與MapReduce整合。
Hive是一個data warehouse system,主要用於在Hadoop上進行結構化數據的管理和查詢。Hive同樣具有分散式和高容錯性,並且使用類似SQL的語言(HiveQL),這使得使用者能夠輕鬆地對大數據進行批量查詢和分析。
Spark用於處理巨量資料,並且支援多種高階語言,如Python、R等。Spark的模組化設計使其能夠處理不同類型的工作負載,包括:
Spark SQL:用於結構化資料處理的模組,使得使用者可以使用SQL語法進行資料查詢和操作。
MLlib:提供了多種機器學習算法,如分類、回歸、聚類等,並且能夠簡化大規模機器學習模型的開發和部署。
Spark Streaming:允許處理即時資料流,使得Spark可以在資料進入系統時即時處理和分析。
現在騎車能不停室外就不停室外,一個下午過後放在外面的安全帽直接變水瓢...