參賽動機 還記得本人高中的時候大數據這個詞很夯,那個時候根本不清楚大數據是什麼,只覺得把一大堆數據蒐集起來就叫做大數據吧,具體能拿來幹嘛其實也不太清楚;隨著A...
大數據 4V 昨天的文章中有提到,高中時的我覺得大數據就是非常大量的數據,這想法不完全錯,但也不完整,當時的我只關注了數據量 (Volume),事實上,大數據有...
有界數據 vs 無界數據 在數據流處理中,有界數據 (Bounded Data) 和無界數據 (Unbounded Data) 是兩個重要的概念,這裡的界是時間...
前言昨天提到大數據的計算模式大致上可以分為批處理與流處理,還沒看過的可以先看這篇:Day03 - 大數據計算:批處理與流處理 批處理用於批次處理大量數據,流...
Hadoop 簡介 Hadoop 是一個開源的分散式存儲和處理框架,常用於巨量資料集的處理,透過 Hadoop,我們能將多個機器結合成群集(cluster),...
前言昨天的文章對 Hadoop 做了基本的介紹,還不知道 Hadoop 是什麼的人可以先看看這篇:Day05 - Hadoop 介紹。 前置作業 Lin...
前言昨天的文章介紹了 Hadoop 的安裝,還沒完成安裝的請參考這裡:Day06 - Hadoop 安裝。 Hadoop 共有三種模式,分別是: Loc...
今天要介紹 HDFS 的基本操作,包括文件的寫入、讀取與刪除等,除了介紹基本的 Shell commands 外,也會介紹如何透過 Python 來操作 HDF...
Hadoop 是用 Java 編程的,因此用 Java 來開發相關應用是最方便的,不過 Hadoop 也支援用其他語言開發,如 C++、Python、Ruby。...
在介紹 HDFS 的基本操作時,我們都是針對整個檔案進行操作,那假設今天有一個結構化的資料表,我們應該如何設計資料表在 hdfs 中的存儲、查詢資料表的內部資訊...