iT邦幫忙

鐵人檔案

2023 iThome 鐵人賽
回列表
AI & Data

30天認識主流大數據框架:Hadoop + Spark + Flink 系列

30天認識主流大數據框架:Hadoop + Spark + Flink

鐵人鍊成 | 共 30 篇文章 | 12 人訂閱 訂閱系列文 RSS系列文
DAY 1

Day01 - 這裡數據好多,我好害怕

參賽動機 還記得本人高中的時候大數據這個詞很夯,那個時候根本不清楚大數據是什麼,只覺得把一大堆數據蒐集起來就叫做大數據吧,具體能拿來幹嘛其實也不太清楚;隨著A...

2023-09-16 ‧ 由 RiceBugJ 分享
DAY 2

Day02 - 初探大數據

大數據 4V 昨天的文章中有提到,高中時的我覺得大數據就是非常大量的數據,這想法不完全錯,但也不完整,當時的我只關注了數據量 (Volume),事實上,大數據有...

2023-09-17 ‧ 由 RiceBugJ 分享
DAY 3

Day03 - 大數據計算:批處理與流處理

有界數據 vs 無界數據 在數據流處理中,有界數據 (Bounded Data) 和無界數據 (Unbounded Data) 是兩個重要的概念,這裡的界是時間...

2023-09-18 ‧ 由 RiceBugJ 分享
DAY 4

Day04 - 大數據架構:Lambda 與 Kappa

前言昨天提到大數據的計算模式大致上可以分為批處理與流處理,還沒看過的可以先看這篇:Day03 - 大數據計算:批處理與流處理 批處理用於批次處理大量數據,流...

2023-09-19 ‧ 由 RiceBugJ 分享
DAY 5

Day05 - Hadoop 介紹

Hadoop 簡介 Hadoop 是一個開源的分散式存儲和處理框架,常用於巨量資料集的處理,透過 Hadoop,我們能將多個機器結合成群集(cluster),...

2023-09-20 ‧ 由 RiceBugJ 分享
DAY 6

Day06 - Hadoop 安裝

前言昨天的文章對 Hadoop 做了基本的介紹,還不知道 Hadoop 是什麼的人可以先看看這篇:Day05 - Hadoop 介紹。 前置作業 Lin...

2023-09-21 ‧ 由 RiceBugJ 分享
DAY 7

Day07 - Hadoop 模式與配置

前言昨天的文章介紹了 Hadoop 的安裝,還沒完成安裝的請參考這裡:Day06 - Hadoop 安裝。 Hadoop 共有三種模式,分別是: Loc...

2023-09-22 ‧ 由 RiceBugJ 分享
DAY 8

Day08 - HDFS 基本操作 (FileSystem Shell & Python)

今天要介紹 HDFS 的基本操作,包括文件的寫入、讀取與刪除等,除了介紹基本的 Shell commands 外,也會介紹如何透過 Python 來操作 HDF...

2023-09-23 ‧ 由 RiceBugJ 分享
DAY 9

Day09 - MapReduce with Python

Hadoop 是用 Java 編程的,因此用 Java 來開發相關應用是最方便的,不過 Hadoop 也支援用其他語言開發,如 C++、Python、Ruby。...

2023-09-24 ‧ 由 RiceBugJ 分享
DAY 10

Day10 - Hive 介紹

在介紹 HDFS 的基本操作時,我們都是針對整個檔案進行操作,那假設今天有一個結構化的資料表,我們應該如何設計資料表在 hdfs 中的存儲、查詢資料表的內部資訊...

2023-09-25 ‧ 由 RiceBugJ 分享