目前工作上大部分都是用excel在做資料上的處理。以前雖然也有用過excel做過分析,單都僅限於少量的資料和單一表格,很少需要一次分析非常大量的資料和同時處理多張報表。
在做資料處理和整理的時候,養成好習慣非常重要!如果沒有隨時保持好習慣,很容易資料越處理越髒、越亂,尤其實當你做到一半被打斷的時候,回頭再看自己做到一半的檔案,根本不知道自己到底做到哪裡了(笑)
以下列出我最近的感悟,也是我自己急切需要養成的好習慣:
下載檔案要好好命名
這個是為了讓自己在找原始檔案的時候可以更快速。
很常見的狀況就是下載的資料夾裡有一堆download、download(1)這種檔名,如果沒有好好命名,隔天再回頭看根本不知道內容物是甚麼,想要檢查原檔的時候也很難找到真正的檔案。
保留原檔資料數據不任意刪減
這個真的是我個人的壞習慣啊!有時候為了貪快、或是不想要資料量太大,就會直接針對原數據做刪減或是條件限制,如果源頭的資料就被自己弄髒的話,接下來在處理的過程只會越來越髒,越來越不知道自己現在在幹嘛。
清理資料後再做條件篩選
自己的壞習慣二,很常邊清理邊篩選,邊做邊篩的後果就是資料清理的不夠乾淨,篩選出來的資料還是錯的。
這也跟我目前因清理資料還不夠熟悉有關,很常以為自己清完了,就開開始篩條件,篩完後又發現有些條件沒有清掉,然後針對篩選後的資料清一次。發現資料數目不夠多,又重新篩了一次資料,然後又有沒清乾淨的資料跑進來,重複循環。
因此一次性地把資料清乾淨比較重要,這樣之後後面的篩選條件改變了也沒有問題,因為資料已經徹底的被你整理好了!
以上是目前清理資料的時候我實際遇到的障礙,也讓我踩了很多次雷。這次特別把它整理下來,一方面是提醒自己,一方面也分享給大家。
雖然聽起來好像都是理所當然的事,但當你第一次實際面對這些資料的時候,可能常常就糊裡糊塗地開始了,然後糊裡糊塗地結束了。(不過也因為我是分析菜鳥,所以才會有這麼多的新手錯誤XD)
接下來,終於要進入到SQL了~好玩的取數時光~讓我們一起期待明天吧!