第二個「V」要思考的數據問題是多樣性Velocity,資料的格式有千百種,從數不完的副檔名就知道。軟體的蓬勃發展與進步產生出了形形色色的資料,每種資料格式也都各有其特色,大致上,從資料產生時所呈現的結構,我們可以大原則將資料區分為:結構化資料、半結構資料與非結構化資料,並利用這個原則來判斷適合的服務。
結構化資料:
表格資料,經過一定規則整理在一起的資料
這一定的規則稱為資料架構Schema,填入的資料需要經過正規化
有「欄」跟「列」可以定位要找的東西
而表格資料通常存在在資料庫中,例如:MySQL, Oracle等資料庫軟體
半結構化資料:
看得出來有格式的的資料,但沒有表格資料嚴謹的填寫限制
不是所有資料都有相同欄位,所以每筆資料可能各有特色,便是所謂self-describing structure
通常是以「鍵」與「值」對應的方式呈現,可以有索引Index來定位要找的東西
而鍵值資料通常存在類似XML,JSON等檔案中,適用的資料庫有MongoDB, Amazon DynamoDB等
非結構化資料:
簡單來說,不是以上兩種就是歸在這類
非結構化資料如字面上的意思,資料與資料間在產生時沒有一個統一的規則
舉凡圖片、影片、電子郵件等都歸在這,可想而知有多大量
但沒有規則並不代表不能被查詢,現行有許多方式可以在資料產生之後將它們歸檔,例如幫檔案加上標籤tag、或是利用爬蟲程式找出共同的規則再將這些規則編成目錄catalog以便檢索。
分析未結構化資料,有點像是要想辦法用Tableau商業智慧軟體去分析一堆PDF檔然後出儀表板,有挑戰但並不是做不到;而想這麼做時,雲端分析平台就是您的好夥伴。