[Data Science 到底是什麼從一個完全外行角度來看][03]Big Data到底是有多Big？

2018 iT 邦幫忙鐵人賽

DAY 3

Data Technology

Data Science 到底是什麼 - 從一個完全外行角度來看系列第 3 篇

2018鐵人賽 data science 資料科學

Alan Tsai

團隊2018 新年快樂

2017-12-21 22:56:37

3713 瀏覽

分享至

圖片來源：https://pixabay.com/en/books-spine-colors-pastel-1099067/ 和 https://pixabay.com/en/math-blackboard-education-classroom-1547018/

在上一篇([02]Data Science 是什麼？)了解了整個Data Science包含的內容，這篇將會看看源頭，Data本身。

這篇先了解到什麼是Big Data？有什麼特性？到底是有多Big？

同步發表於我的部落格：http://blog.alantsai.net/2017/12/data-science-series-03-big-data-intro.html (部落格的格式會漂亮一些，ithome不支援html好不方便）

什麼是Big Data

目前階段在介紹整個Data Scientist日常的中心，Big Data

Big Data的處理
Big Data 在台灣翻譯成為巨量資料，但是因為中國那邊反而實際用的比較多，因此大數據反而是比較耳熟能詳的詞。

Big Data其實是個相對詞，對於我們來說是「Big」Data，可能兩年後只是幾天的量而已，事實上，從數據產生出到2003年的資料綜合 = 我們2天的產生量而已；

IDC更研究指出，現今90%的資料，都是這2年產生出來。

這個資料量非常的恐怖，更別說我們還沒完全進入全IoT（Internet Of Things 物聯網）時代，如果到了那個時候估計光每一秒說不定都是現在1天的綜合（這個是個人亂猜，不過估計不久將來應該很快會發生）。

所以Big Data是一個相對詞，不過當描述Big Data的時候，一般來說會有3個特性，因為都是英文字母V開頭，因此也稱為3V:

Volume
Velocity
Variety
Big Data - What is Big Data - 3 Vs of Big Data - Volume, Velocity and Variety - Day 2 of 21 3vs
3V的含義，資料來源：https://blog.sqlauthority.com/2013/10/02/big-data-what-is-big-data-3-vs-of-big-data-volume-velocity-and-variety-day-2-of-21/

3V 之 Volume - 量

Big Data的其中一個特性就是量很大，因此3V裡面的Volume指的就是產生的量。

既然提到量，那麼就要提到儲存量的單位：

換句話說，1 ZB = 10^21 Byte。來源：https://en.wikipedia.org/wiki/Zettabyte
了解了單位，來看看每天產生的量：

可以看到光2002年的每秒產量就和1992年的每天一樣，來源：http://www.vcloudnews.com/every-day-big-data-statistics-2-5-quintillion-bytes-of-data-created-daily/
這個量非常恐怖，那麼，如果我們說Big Data到底在說什麼等級呢？

基本上，當國外在說Big Data分析的時候，一般來說講的都是PB等級。

大家可以想象一下，要能夠儲存PB並且做運算的電腦要多高級？

3V 之 Velocity - 增長速度

Velocity指的是量的增長速度。從本來批次的增加，到最後的及時增加。

可以看到，每分鐘會有72小時影片上傳到Youtube：來源：http://www.vcloudnews.com/every-day-big-data-statistics-2-5-quintillion-bytes-of-data-created-daily/
當IoT完全進入的時候，資料增長一定會是Real Time。