經過前面幾天的SQL範例以及plot範例,
鐵人賽也到中間了.
今天來談一下關於資料處理的一些項目與過程.
1.獲得資料
從別的地方下載資料,例如從網頁擷取.
透過查詢RDBMS或是有提供API的網站服務或Server.
從別的檔案萃取,例如從HTML檔案或是試算表.
透過Sensor或是從系統中獲取,例如CPU使用量,系統溫度等.
- 過濾資料
=======
從第一項獲得的資料,屬於Raw Data,可能有欄位的說明,或是
額外的資料,我們可以透過以下步驟:
過濾不要檔頭或是前面幾列.
擷取我們需要的欄位.
格式的轉換或取代,例如時間格式調整.
一些遺失的資料,例如NULL,替換成適當的表示方式.
最終轉換成我們需要的格式.
- 探索資料
=======
查看觀察資料.
做一些統計,例如加總,平均,極大極小值,分組等.
繪製成圖形.以利視覺化觀察.
4.建立模式模型
透過上面的整理,觀察,設法找出一些模式,進而建立模型.
5.解譯資料
推論出結論
評估其意義
總結及發表
在這30天中,設法介紹一些工具或技巧,對大家在做資料處理方面
提供一些實務上的幫助.