iT邦幫忙

2017 iT 邦幫忙鐵人賽
DAY 1
0
Big Data

迴歸分析與建模入門系列 第 1

DAY01: 大數據(Big Data)介紹 -1

  • 分享至 

  • xImage
  •  

人們每天上傳至雲端的檔案數量,多達一億張相片、十億份文件… 更別提數位影音、交易、生物醫療… 每天全球所創造的資料量高達2.5艾位元組(exabyes, 即1000,000,000,000,000,000)。

但資料量大就是大數據嗎? 究竟什麼是大數據? 又為何大數據會在近幾年突然興盛起來? 時常耳聞的Hadoop, MapReduce, Spark 技術又是什麼呢?

今天,就讓我們來聊聊什麼是「大數據」(Big Data)。

大數據的源起

「儲存成本」與「資料取得成本」因科技進步而大幅下降,造就了這個年代大數據的興起。

30年前,1TB檔案存儲的成本為16億美金,如今一個1TB的硬碟不到100美金。同時間,全球各行業的資料量成長更是急速攀升;根據預估,從2013年至2020年間將成長10倍的資料量,資料總量將從4.4ZB增加至44ZB。

以天文學為例,2000年美國太空總署在新墨西哥州發起的史隆數位化巡天 (Sloan Digital Sky Survey)專案啟動時,望遠鏡在短短幾周內收集到的資料,已經比天文學歷史上總共收集的資料還要多。

在生物醫學領域,新型的基因儀三天內即可測序1.8 TB的量,使的以往傳統定序方法需花10年的工作,現在1天即可完成。在金融領域,以銀行卡、股票、外匯等金融業務為例,該類業務的交易峰值每秒可達萬筆之上。

Google每天要處理超過24 千兆位元組的資料,這意味著其每天的資料處理量是美國國家圖書館所有紙質出版物所含資料量的上千倍。 Facebook每天處理500億張的上傳相片 ,每天人們在網站上點擊”讚”(Like)按鈕、或留言次數大約有數十億次。

YouTube的使用者人數已突破十億人,幾乎是全體網際網路使用者人數的三分之一,而全球的使用者每天在YouTube 上觀看影片的總時數達上億小時。在Twitter上,每秒鐘平均有6000多條推文發布,每天平均約五億條推文。

千禧年開始,天文學、海洋學、生物工程、電腦科學,到智慧型手機的流行,科學家發現:仰賴於科技的進步(感測器、智慧型手機),資料的取得成本相比過去開始大幅地下降──過去十多年蒐集的資料,今朝一夕之間即能達成。

也因為取得數據不再是科學研究最大的困難,如何「儲存」、「挖掘」海量數據,並成功地「溝通」分析結果,成為新的瓶頸與研究重點。

接下來,我們將進一步介紹大數據的定義、特性,與發展重點。

什麼是大數據?

大數據意指資料的規模巨大,以致無法透過傳統的方式在一定時間內進行儲存、運算與分析。至於「大」是多大,則各家定義不一,有兆位元組(TB)、千兆位元組(PB)、百萬兆位元組(EB)、甚至更大的規模單位;然而若真要找到符合這麼大規模數據量的企業倒也是不容易。

事實上,根據451 Research 的資料科學家 Matt Aslett,他將大數據定義為「以前因為科技所限而忽略的資料」,討論這些以前無法儲存、分析的資料。如本文第一段所言,由於在近年來儲存成本降低與資料獲取量變大,因而能觀察到不曾注意過的商業趨勢,讓企業做出更全面的考量。

無論企業規模大小,我們應注重的不僅是數據量本身,而應將「大數據」作為在科學研究與商業方法的運營心態:大數據需要全新的處理方式,以新型的儲存運算方法分析數據、產出溝通圖表,並將該分析結果視為一種戰略資產。

大數據的特性?

目前大部份的機構將大數據的特性歸類為「3V」,包括資料量 (Volume)、資料類型 (Variety)與資料傳輸速度 (Velocity)。

http://ithelp.ithome.com.tw/upload/images/20161209/20103395OR6se6s3Ci.png

  1. Volume - 資料量
    無論是天文學、生物醫療、金融、聯網物間連線、社群互動...每分每秒都正在生成龐大的數據量,如同上述所說的TB、PB、EB規模單位。

  2. Variety - 資料多元性
    舉一個簡單的例子:
    │資料類型│ 0 │ 0 │ 1 │ 0 │ 0 │ 1 │ 0 │ 0 │ 1 │ 0 │ 0 │ 1 │...
    就算上述資料量高達 1 TB,採用傳統統計方法仍能很容易地找到資料規律。也因此,真正困難的問題在於分析多樣化的資料──從文字、位置、語音、影像、圖片、交易數據、類比訊號... 等結構化與非結構化包羅萬象的資料,彼此間能進行交互分析、尋找數據間的關聯性。

  3. Velocity - 資料即時性
    大數據亦強調資料的時效性。隨著使用者每秒都在產生大量的數據回饋,過去三五年的資料已毫無用處──一旦資料串流到運算伺服器,企業便須立即進行分析、即時得到結果並立即做出反應修正,才能發揮資料的最大價值。

目前台灣真正能符合大數據「3V」定義的企業微乎其微,在數據分析上更是不可能──通常是由資料科學團隊向企業的IT部門登入企業伺服器取得資料,除了量與多樣性已難以達到以外,在「即時性」這一點上便不符合;唯有企業內部自建即時的資料分析團隊並隨時產出分析反饋,方能稱作大數據分析。


系列文
迴歸分析與建模入門1
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

2 則留言

0
johnstudy
iT邦新手 5 級 ‧ 2016-12-09 17:45:59

即便如此公司裡面的主管仍然對於那幾MB的資料稱為大數據
不講潮一點好像深恐跟不上時代一樣

0
WeiYuan
iT邦新手 4 級 ‧ 2016-12-09 23:21:55

要怎麼定義大數據?是要三個 V 都符合?還是符合其中一項就好?
還是有其他定義?OwO

杜岳華 iT邦新手 5 級 ‧ 2016-12-10 23:40:06 檢舉

回樓上
目前並沒有明確的共識要符合幾個V?而且每個V也沒有說到底要多大或多快才是符合定義?
然後補充:目前是以4V為主要討論的大數據特質,還有一個V是指Veracity,也就是真實性。
關於資料的真實性包括資料收集的時候是不是有資料造假?即使是真實資料,是否能夠準確的紀錄?資料中有沒有異常值或是outlier?有的話要怎麼處理?等等議題

我要留言

立即登入留言