iT邦幫忙

2021 iThome 鐵人賽

DAY 1
0
AI & Data

資料三十-那些最基本的資料處理與分析技能系列 第 1

【Day01-資料】什麼才叫做資料?不就是資料嗎還有什麼差別?

在這個演算法當道的時代
每一家網路公司在想辦法儘量的搜集使用者的資訊
不論是蘋果限制臉書獲取使用者的資料
還是Google花大筆鈔票買下Safari預設搜尋引擎的位置
也難怪資料會被稱作「網路上的新石油」(畢竟我們都知道石油帶來的戰爭可不少?)

除了那些掌控海量數據的頭部公司
也有越來越多的公司開始打著AI的旗號
而相關工作的薪水的近些年也跟著水漲船高

對於許多剛踏入這個領域的人們
似乎總喜歡問「我是用Python好呢還是學R好呢?」
但筆者認為在此之前一個更重要的概念是

  • 什麼才叫做資料?
  • 資料可以給出我們什麼價值
  • 不同的資料有什麼差別?

這就好比我們在打BOSS前會需要瞭解對應的屬性
總不能帶著個皮卡丘就一天到晚都只用十萬伏特
那就只能遇到大岩蛇的時候就發現哎呀大意了

而資料的屬性通常可以分成兩個面向——類型尺度
其中類型指的是這個資料內容儲存的是什麼,常見的類型有

  • 布林值:
    • 用在可以將結果二分的屬性上,且理論上不會有第三種結果
    • 例如:有/無消費過的顧客、是/否滿足免運的條件...
    • 上述例子刻意不用性別,是因為如果用男/女作為二分方式,則在現在社會中的第三性或其他狀況就無法被歸類在其中,而若是改成男性/非男性的方式將範圍含蓋,不過在儲存過程卻失去了女性與其他性別標記的資訊,因此在使用布林值的時候切記要找到兩個顯著不同而相反的分類會更加有利於後面的分析。
  • 數值:
    • 最常用的一種資料類型,而根據儲存類型的不同又可以分成離散型連續型的數值
    • 例如:3頭牛(離散型)、1.2公升的水(連續型)...
  • 向量:
    • 許多個相同類型的數值組合在一起即可稱作是向量,一定程度上可以當作數學上的向量理解,但有些時候就只是單純表示放在一起的一維數字組而已
    • 例如:地理座標、聲音訊號(是的,聲音其實也是一維儲存的)
  • 矩陣:
    • 如果說向量是1D的數字組,那矩陣就是2D的數字組,這種資料的特點在於它數字組之間的最小單元通常會有一定的關係
    • 例如:圖片
  • 文字:
    • 啊不就你現在在看的東西( ¯•ω•¯ )
    • 但文字資料我們會需要考慮最小單位應該是什麼?
      • 如果以儲存角度來想,最小的單位應該是一個一個的字元,例如:a, p, p, l, e
      • 但如果以意義的角度來想,最小的單位似乎就不能再將一個單字切開來(留個思考,那中文應該如何呢?)

先寫到這邊,尺度部分留明天講XD


下一篇
【Day02-尺度】40°C為什麼不是20°C的兩倍?
系列文
資料三十-那些最基本的資料處理與分析技能30

尚未有邦友留言

立即登入留言