在前面的29天中,從資料庫的一些案例出發,裡面
有產生大量測試資料的方法,也有一些比較有點
難度,但是在系統實務上很有用的案例,這部份
我只提出一些Table 測試資料,還有最後要達到
的資料格式,至於要怎樣下SQL.....
我先保留給大家動動腦想看看,裡面藏有資料庫
設計的重要關鍵.
接著是介紹Gnuplot,來畫一些圖形.
然後介紹了CSVKit,中間還有一篇關於資料處理的
步驟介紹.
還有使用了指令的組合去下載資料,然後作一些處理.
後面介紹了正規表示式的一些案例,例如IP Address,
以及時間格式等.最後介紹了一個 feedgunplot,可以
在命令列將資料餵給Gnuplot來畫圖.
也許有人會問,現在都在講雲端啦,Big Data啦.怎麼
還在講命令列的東西.
嗯...多大才叫大呢.
之前看過一句有趣的話. In Texas, we just call it data.
德州佬愛玩這種關於Big的梗.
個人認為,在資料處理的前面過程中,基本的過濾及處理相當
重要.善用現有的一些工具,效率高,又成熟可靠.
純化後的資料,看是要轉到哪種資料庫或是Hadoop Ecosystem,
都很不錯.
但若前面沒處理好,再使用程式處理,徒增困擾.
所以這次的鐵人賽,就介紹一些工具,希望對大家在處理資料
的過程中能有些幫助.