原始資料可能來自非常多不同的地方,我們可以根據資料產生的方式來加以分類
這邊泛指各種 Sensor 測量得到的資料。Sensor 是普遍用來將資訊資料化的工具,像是溫度計、地震儀、光度計等等。以自駕車來說更是在車內車外都佈滿 Sensor,像是感測距離的、感測光線、感測電池電壓、視訊等等。
(Credit: www.nytimes.com)
有些資料需要使用者自行輸入才能得知,例如 Email 帳號、密碼、性別、生日等等,另外像是心理測驗、性向測驗、意見調查等等,需要依賴人類判斷才能得知的資料,都需要使用者輸入。另外像是機器學習或是 AI,也需要大量的使用者協助貼標籤才能得到訓練資料。像 Google 也常透過這種驗證機制來讓世界各地的使用者來協助辨識文字或圖片。
所謂互動資料是使用者在跟裝置互動過程中留下的資料。例如大家常常看到的網路廣告,其實背後我們會埋下非常多的資事件,當這些使用者事件發生時,就會向 Server 回傳資料。像是打開 App 的時候、特定頁面出現時、當廣告被曝光時、廣告被點擊或是被按 X 的時候,都會留下這些數位足跡。這些互動資料可以幫助這些 App 開發者或廣告代理商更了解使用者怎麼跟他們的產品互動,進而進算像是用戶留存、點擊率、跳出率的數據來優化產品。
交易資料特別指的是發生交易行為時的資料。例如上網購物,在銀行存錢、提款時都會產生交易資料。交易資料由於資料性質比較敏感且不允許發生錯誤,所以會特別注重交易機制的設計,畢竟沒人想要帳戶明明沒有錢卻還能提款、或是明明付了款但是廠商沒接到訂單這樣的情形發生。
相對於由人類留下來的行為資料,機器資料就是在機器或裝置在運作過程中記錄下來的資訊。例如當你的電腦當掉時,會出現一份機器產生的報告,裡面包括了機器型號、資源、當下發生的錯誤訊息等等方便工程師查找 Bug。那像我們平常在運行 Hadoop Cluster 時,也會需要各個節點即時地將機器資源(CPU、Memory、網路 Latency)這些資訊集中起來,方便我們觀察機器的狀態。這些機器資料也有賴軟體開發時埋入相關的 Log 訊息並送出來。
操作資料指的是執行商業邏輯時留下的資料,也就是軟體執行時的 Log。像是我們在寫爬蟲程式時,可能會在與網站建立連結時發出一個「已建立連線」的訊息,然後每爬完一頁的資料就留下一筆「以爬完 XXX 頁」這樣的訊息。這些訊息有助於開發者了解程式目前運行狀態,搜集這些 Log 也有助於我們分析程式的運行是否正常。
今天介紹了幾個常見的原始資料來源,希望讓大家更能了解生活周遭的原始資料,未來在開發相關資料產品時,也能知道可以在哪裡埋下資料的種子。
https://simplicable.com/new/raw-data
https://www.electronicsforu.com/technology-trends/tech-focus/automobile-industry-sensor