iT邦幫忙

2017 iT 邦幫忙鐵人賽
DAY 11
0
Big Data

從學生到職場:菜鳥資料科學家的第一個月系列 第 11

資料怎麼存在電腦裡?資料格式解密

資料

根據維基百科中,對於資料的定義:「資料(英語:data),是指未經過處理的原始記錄。一般而言,資料缺乏組織及分類,無法明確的表達事物代表的意義,它可能是一堆的雜誌、一大疊的報紙、數種的開會記錄或是整本病人的病歷紀錄。(wiki: 資料)

在知識管理的流程裡,泛指從資料到最終價值的四個資料流。「資料」是指未經處理消化的初級素材,「資訊」是將資料有系統的整理產生可用性的加工資料。「知識」是透過資訊及使用者的經驗產生價值的材料。「智慧」是知識管理的最上層,將知識轉化成創造效益及價值。資料科學其實也是以知識探索為目的的一種方法,如何將資料一層一層挖掘出有價值的知識。

前幾天提過了如何使用資料庫存放資料,今天來談談原始的資料是怎麼存在的呢?

CSV

CSV(Comma Seperated Values)逗號分隔值,是一種常見的資料格式,使用逗號將不同欄位做為分隔。可以使用一般的文字編輯器以原始格式開啟,也可以使用 excel 或 number 等試算表軟體以表格方式開啟。一般格式如下,第一列會記錄格式,第二列開始記錄資料:

優點

  • 結構單純
  • 人機皆可讀
  • 檔案小

缺點

  • 未限定編碼(big5, utf-8 … )
  • 值內有逗點「,」可能造成欄位判斷錯誤
  • 第一行不一定是欄位名稱
  • 換行問題

JSON

JSON(JSON stands for JavaScript Object Notation)JavaScript 物件格式,是一種延伸自 JavaScript 物件來儲存和交換簡單結構的輕量級純文字資料交換格式。一般格式如下,每一筆資料都會用 "{資料屬性:資料數值}" 的格式紀錄,也可以是巢狀資料。

優點

  • 可以存放結構較複雜的資料
  • 大部份瀏覽器都支援

缺點

  • 檔案較大(不過比XML小)
  • 不一定適合轉換成表格型式

XML

XML(eXtensible Markup Language)可延伸標記式語言,是一種標記式語言,處理包含各種資訊的資料等。

優點

  • 可以存放結構較複雜的資料
  • 大多瀏覽器可幫忙排版成較易讀格式

缺點

  • 檔案較大(因為欄位名稱會一直重覆多次)
  • 不一定適合轉換成表格型式

Reference

  1. 資料
  2. 「資料」—「資訊」—「知識」—「智慧」

上一篇
資料庫系統應用 - 非關聯式資料庫
下一篇
資料來源與取得
系列文
從學生到職場:菜鳥資料科學家的第一個月30

尚未有邦友留言

立即登入留言