iT邦幫忙

第 12 屆 iThome 鐵人賽

DAY 26
1
AI & Data

門外漢通識:資料科學無痛入門磚系列 第 26

資料分析商業應用與策略管理 #筆記一

  • 分享至 

  • xImage
  •  

當代生活中,有許多製造及使用資料的機會,舉凡企業應用營運管理系統、民間超商應用、電商網頁應用、個人貨幣使用、政府機關、出生資料... 我們跟他人溝通的過程,產生大量的資料與訊息,人類大腦能夠處理的資訊量有限,但還是很用力地在理解這個世界。大數據的概念是什麼呢?每天 Skype 上有 37 萬+ 分鐘的語音電話、每天通訊網路裡發出 1.68 億封 Email、每天臉書更新 69.5 萬+ 條新狀態、每天 iPhone 上架 13000+ 個新 APP... 這些大數據累積的對象基本上是營運廠商。1990 年代,資料倉儲之父 Bill Inmon 常常提到 Big Data,專門做儲存裝置(一整櫃的硬碟,成千上萬台電腦裡放了幾十萬個硬碟)的 EMC 在 2011 年 5 月「雲端運算相遇大數據」為主題的會議上,提出了 Big Data 概念。

https://ithelp.ithome.com.tw/upload/images/20201011/20129989WH2WjR51Da.jpg
全世界現實世界的大數據:

  • 每秒鐘發送 2.9 百萬封電子郵件,一分鐘讀一篇、都不睡覺的話,要讀 5.5 年才讀得完
  • 每天有 2.88 萬個小時的影片上傳到 Youtube,都不睡覺的話,要看 3.3 年才看得完
  • Twitter 上每天發布 5000 萬訊息,假設 10 秒瀏覽一則訊息,都不睡覺的話,要看 16 年才看得完
  • 亞馬遜每天產生 630 萬 + 筆訂單
  • 每個月所有臉友在臉書上花費 7000 億分鐘,被行動網路的使用者發送和接收的數據高達 1.3 EB
  • Google 每天需要處理 24 PB 的數據

大數據時代的背景下,資料量增加(常聽到的硬碟容量 TB 10^12 ➫ PB 10^15 ➫ EB 10^18 ➫ ZB 10^21,以千倍的速度擴增)、結構日趨複雜,根據 IDC 監測,人類產生的數據量正在呈指數級增長,大約每兩年翻一倍,2020 年以後速度可能還會再增加,表示這兩三年產生的數據量相當於之前產生的全部數據量;何況,大量新資料來源的出現導致了非結構化、半結構化數據爆發式的增長,譬如 Youtuber 產生的資料已經不是傳統圖片與純文字檔,和粉絲的各種互動模式、不同社群平台上的資料都比以往的內容更複雜,這些訊息衍伸的資料,早已遠遠超過人力所能處理的範圍。

行動裝置出現後,資料以次方倍的數量級增長、產生的速度越來越快,回顧到我們在鐵人邦比賽第一天提到的 4V 特徵之間的連結:

  • 數量 Volume 非結構化(如今已經有影音、留言音頻... 不同組合的資料產出)數據的超大規模和增長
    • 佔總數據量的 80-90%
    • 比結構化數據增長快 10-50 倍
    • 是傳統數據倉庫的 10-50 倍
  • 多樣性 Variety 大數據的結構差異和多樣性
    • 很多不同形式(文字、圖像、影音、日誌資料、類文字)
    • 無模式或模式不明顯資料
    • 不連貫的語法或需串接
  • 速度 Velocity 即時分析與非批量式分析
    • 數據輸入、處理與丟棄,譬如能透過口罩地圖知道哪裡還有夠量口罩可以買
    • 立竿見影而非事後見效
  • 真實性 Veracity 資料的真實性
    • 收集的資料是否有造假
    • 真實資料,是否能夠準確的紀錄,對不對、能不能用
    • 資料中有沒有異常值、異常值的處理方式
      具備這些特點的數據,就可以說是大數據。

大數據的應用價值,類似在美國阿拉斯加淘金業,從巨量砂石中找出稀疏但珍貴的黃金。價值密度低,是大數據的典型特徵,且資料組成內容不定,包含大量的不相關訊息、對未來趨勢與模式的可預測分析、深度複雜分析(人工智慧分析、商業智慧 [諮詢、研究調查中心報告等])。


上一篇
Tableau 資料分析 #筆記七
下一篇
資料分析商業應用與策略管理 #筆記二
系列文
門外漢通識:資料科學無痛入門磚30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言