當代生活中,有許多製造及使用資料的機會,舉凡企業應用營運管理系統、民間超商應用、電商網頁應用、個人貨幣使用、政府機關、出生資料... 我們跟他人溝通的過程,產生大量的資料與訊息,人類大腦能夠處理的資訊量有限,但還是很用力地在理解這個世界。大數據的概念是什麼呢?每天 Skype 上有 37 萬+ 分鐘的語音電話、每天通訊網路裡發出 1.68 億封 Email、每天臉書更新 69.5 萬+ 條新狀態、每天 iPhone 上架 13000+ 個新 APP... 這些大數據累積的對象基本上是營運廠商。1990 年代,資料倉儲之父 Bill Inmon 常常提到 Big Data,專門做儲存裝置(一整櫃的硬碟,成千上萬台電腦裡放了幾十萬個硬碟)的 EMC 在 2011 年 5 月「雲端運算相遇大數據」為主題的會議上,提出了 Big Data 概念。
全世界現實世界的大數據:
大數據時代的背景下,資料量增加(常聽到的硬碟容量 TB 10^12 ➫ PB 10^15 ➫ EB 10^18 ➫ ZB 10^21,以千倍的速度擴增)、結構日趨複雜,根據 IDC 監測,人類產生的數據量正在呈指數級增長,大約每兩年翻一倍,2020 年以後速度可能還會再增加,表示這兩三年產生的數據量相當於之前產生的全部數據量;何況,大量新資料來源的出現導致了非結構化、半結構化數據爆發式的增長,譬如 Youtuber 產生的資料已經不是傳統圖片與純文字檔,和粉絲的各種互動模式、不同社群平台上的資料都比以往的內容更複雜,這些訊息衍伸的資料,早已遠遠超過人力所能處理的範圍。
行動裝置出現後,資料以次方倍的數量級增長、產生的速度越來越快,回顧到我們在鐵人邦比賽第一天提到的 4V 特徵之間的連結:
大數據的應用價值,類似在美國阿拉斯加淘金業,從巨量砂石中找出稀疏但珍貴的黃金。價值密度低,是大數據的典型特徵,且資料組成內容不定,包含大量的不相關訊息、對未來趨勢與模式的可預測分析、深度複雜分析(人工智慧分析、商業智慧 [諮詢、研究調查中心報告等])。