我想~~就從基礎說起,我們先來認識「資料」。
引用維基百科
資料(英語:data)又稱數據,是通過觀測得到的數字性的特徵或資訊。更專業地說,資料是一組關於一個或多個人或物件的定性或定量變數。資料可以是一堆雜誌、一疊報紙、開會記錄或者病人的病歷記錄。[1]
但我覺得維基百科的說明,可以將「是通過觀測得到的數字性的特徵或資訊」這句話,改成被記錄的人事物。
資料是很單純的,不會主動呈現特徵或資訊,任何的特徵與資訊都是透過一些手段(科學實驗、統計分析、人工智慧、科學視覺化等)被發現的。
也就是說,資料就是被記錄的人事物。那,何謂「記錄」?何謂「人事物」?
記錄-寫下來、錄下來、儲存起來,也就是想方設法留存。
人事物-任何形式,鐵人賽的文章也可以算是喔。
舉幾個例:
根據上述舉的3個例子,可以知道資料可以用不同的形式被記錄。
溫度是用「數值」的方式記錄,會議請假原因是用「文字」的方式記錄,競選發表內容是用「音訊」的方式記錄。
再進一步,以數值資料而言,數值資料有「整數」、「浮點數」及「二進位」等類型,文字跟音訊也是一樣,都有不同的類型可以應用。而如何將這一些資料有效的被應用,眾多資料儲存格式就孕育而生。這樣不管世界何處,只要知道格式,就可找當相對應的軟體或方法使用這些資料。
故,知道資料格式是第一步,不然就會變成,我只知道這一份資料是用數值的方式儲存,但因為我不知道儲存的格式,所以無法讀取。
簡言之:
大部分目前使用的資料都是數位化後的資料,所以都會有相對應的軟體可以處理,知道資料格式很重要。
至於解出來的資料是數值還是文字,就是要解出來之後才知道囉。
另外,ascii跟binary資料,我就不特別在這說明,有興趣的可以點這
明天預計介紹讀取txt跟csv~
來個日常工作對話:
我:你寄給我那一份資料是什麼檔案格式啊?
同事:csv阿
那我就會知道可以用excel打開這一份檔案。
重點是,為什麼同事不直接加個附檔名呢?
所以,通常從附檔名就可以知道資料格式囉~
每次剛開始處理很多資料,都有一種「不識廬山真面目,只緣身在此山中」[2]的感覺。
[1] https://zh.wikipedia.org/zh-tw/数据
[2] 蘇軾,題西林壁,宋。