iT邦幫忙

DAY 15
0

經過前面幾天的SQL範例以及plot範例,
鐵人賽也到中間了.
今天來談一下關於資料處理的一些項目與過程.

1.獲得資料

從別的地方下載資料,例如從網頁擷取.

透過查詢RDBMS或是有提供API的網站服務或Server.

從別的檔案萃取,例如從HTML檔案或是試算表.

透過Sensor或是從系統中獲取,例如CPU使用量,系統溫度等.

  1. 過濾資料
    =======

從第一項獲得的資料,屬於Raw Data,可能有欄位的說明,或是
額外的資料,我們可以透過以下步驟:

過濾不要檔頭或是前面幾列.

擷取我們需要的欄位.

格式的轉換或取代,例如時間格式調整.

一些遺失的資料,例如NULL,替換成適當的表示方式.

最終轉換成我們需要的格式.

  1. 探索資料
    =======

查看觀察資料.

做一些統計,例如加總,平均,極大極小值,分組等.

繪製成圖形.以利視覺化觀察.

4.建立模式模型

透過上面的整理,觀察,設法找出一些模式,進而建立模型.

5.解譯資料

推論出結論

評估其意義

總結及發表

在這30天中,設法介紹一些工具或技巧,對大家在做資料處理方面
提供一些實務上的幫助.


上一篇
Gnuplot繪圖 同時顯示多個圖形的方法
下一篇
CSVKit 介紹
系列文
蠻可愛的資料庫與資料處理30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言