我們再往更早的年代看一些,畢竟雖然2010年【大數據(Big Data)】才如神兵天將般登場,但做人不能忘本,就像一個祖師爺等級的人,從小馬背後攸攸地飄出,只說了句:「小兔崽子,這才是Big Data...」我們就只能俯首稱臣,點頭搗蒜般地說是。
延續前篇的解釋一和解釋二...
解釋三:已經超越一般正常營運機構,所備硬體能儲存的資料量
造句:公司資料累積至今已成了Big Data,我們可能要思考使用雲端儲存的服務。
歐洲核子研究組織(CERN, European Organization for Nuclear Research)是最先(1970~)遇到資料量大到無法儲存的組織,也因此開啟了網路發展,進入網路時代。但他們的資料量大,是用PB當作單位在計,1PB = 1024TB、1TB = 1024GB、1GB = 1024MB。在我經驗上,縱使一年的交易明細有2000萬筆,實則也不過就是1~2G左右的大小(視各筆明細使用欄位的狀況而訂)。和動輒以PB在計算的CERN比起來,實在小巫見大巫。
然而,縱使要針對PB等級的資料量做處理,我前段文章所述的資料處理過程,仍是足以套用,並不會因為資料量大小,而有不同的處理過程。反而背後必須使用的硬體規格、網路技術能否負荷,就是另外一個領域的大議題了。甚至,我所謂的【另外一個領域的大議題】,在解釋三的本質上,才真的是【大數據的議題】。
至今三個有關Big Data的解釋及造句,才是我認為最正確的用法。但很遺憾,在積非成是的現在(2018/10),Big Data已經被當作整個資料處理過程的代名詞,從資料匯入、資料清洗、資料採礦、資料分析等等,舉凡只要和資料或數據沾得上邊,都會隨便被講成是Big Data。
換句話說,使用這詞彙的人,根本不管他在談的是資料處理的哪個階段,而就很簡而化之地說出了「Big Data」這個專有名詞。如同小馬上個月參與Tableau的年度峰會台北場,現場有一千七百人報名,受邀上台的用戶分享,開口也是【Tableau這套Big Data軟體,讓我們公司可以很簡單地……】。
以下再列舉幾個可能不夠精準的用法:
好吧,事已至此,
小馬我就不再鑽牛角尖說:
「慢著!上述講的是不是Big Data還大有得討論呢!」
我們,就讓Big Data,以一個超人的形象,存活在大家的心中吧!
讓我們再次掌聲,感謝Big Data的來訪,啊~ 飛走了~
「小馬,千萬不要放棄治療唷!」
Big Data遙遙對我說了這麼一句,
最後化成一粒星點,綻放了幾道耀眼的光芒。
好的我不放棄治療!
讓我對自己再注射一劑強心針吧!
這就像盲試蘿蔔排骨湯一樣,一碗碗蘿蔔排骨湯擺在面前,有碗是媽媽煮的、有碗是路邊小販、有碗是首次嘗試的新手煮的、有碗是昨天其他人喝剩加熱的……,但其中有一碗,是米其林級的大主廚煮的!
大多數的人,並沒有能耐去區分哪一碗才是米其林等級,甚至可能只有大主廚自己才知道;就像我們做數據分析的最後報告,並沒有人有辦法判斷我們運用了多大量的資料,多繁雜的統計工法,只有我們自己才知道,一樣相同道理。
因此,硬要將資料處理或數據分析的一切,都說成是Big Data;
就像是把每碗蘿蔔排骨湯,都說它出自米其林主廚之手一樣。
那麼的偏見無知與自以為是。
我想,我參與鐵人賽的初衷,就是為了講上面最後這段話吧!
鋪陳了半個月15天的文章,終於能將我對Big Data的想法給談清楚,
縱使最後也不過是成為下面這段話的其中三篇文章,也算不枉此行了。
讓我再說一次...
Big Data~ Big Data~ 天下古今幾多之文章,假汝之名以行!
Tableau剛導入我前公司之際,是台灣代理商才剛開始代理的第一年,第一場Tableau發表會,是在30人左右的會議空間。當下我對於Tableau的運作還不清楚,也不知道就是一套BI tool,只知道我老大叫我去參加,只知道他們自稱「處理Big Data的軟體」。
做數據分析的都清楚這句話:
八成工準備數據,二成工分析數據。
「處理Big Data的軟體」?我當下對於Tableau要如何做資料清洗感到困惑,難道現在已經有「自動下水道清潔工具!?(我們常戲稱資料清洗是在做清水溝或清下水道的動作)」。於是一位年輕人,我估計和我年紀相仿,當時最多可能了不起三十歲,半跪在我座位旁,耐著性子釐清我想問的問題,交談了一陣,我才終於明白Tableau是套BI tool,資料清洗果然還是另外一道課題。
交談完畢交換名片時,才赫然發現對方掛著「總經理」的職稱,而正是該間代理商的老闆。他不亢不卑在我旁邊回答我問題的態度,儘管已經n多年過去,至今仍記憶猶新。當然,最後我前公司透過這間代理商採購了Tableau,小馬我也走進了資料處理數據分析這條大路。
而資料清洗這件事,在今年2018,Tableau也跳進來參與了,在這次的新商品發表會上介紹了這項「Tableau Prep」工具。參加這類活動,除了瞭解具體的功能更新、小技巧操作,我認為最重要的是:可以藉此一窺這領域的發展進度和未來方向。
看到Tableau Prep這玩意兒的問世,蠻感五味雜陳的。它是一套號稱(將來要)可以取代ETL工具,聲稱在做資料清洗、資料整理的全新軟體。簡單講,它把平常SQL在寫的內容,試著用更人性化的使用介面,希望讓沒有IT背景的end user也能試圖做到平常SQL在做的資料處理。
從Prep這套軟體,我首先意識到的第一件事:視覺化的開發、統計方法統計數據的輔助,走到Tableau Desktop 10.n版,大概差不多該有的都有了,基本元素都已經設計進去,只剩下懂不懂得運用一些組合技巧,例如把單調呆板的圓餅圖變成具設計感的空心圓餅、把長條圖變成漏斗圖、把兩個地圖圖資合併等等諸如此類。
也因為視覺化這段已經發展得差不多,
Tableau才會選擇再往前一步,
跳進【資料處理】這個大坑...呃不是...這個新領域。
以正面角度看,就我經驗,對於Tableau定期更新改版加強新功能的積極進取態度,如果某天,真的「Prep取代了所有的ETL工具」,我也不會感到意外,甚至蠻樂觀其成的。畢竟要能做到視覺化人性化的軟體,放眼望去,我只能期待Tableau。
但是...最重要的就這個但是,你打算讓原本使用Tableau Desktop版的人,也往前一步去使用Prep嗎?這才是重點,若問我建議,我會說:這兩個是截然不同的領域。Prep實際上存在逆選擇的議題,要能把Prep用得好,這名user必須具備充分的資料架構知識和資料處理經驗,而這種user,會被不具備此能力的user,稱為【IT人員】。
這樣懂我意思了吧......Prep的初衷是讓非IT人員也能用,但能真的把它用好的,基本上仍然是IT人員。然後問題來了,這個IT人員會跟Prep說:你好麻煩要拉半天,我用SQL一下就寫完了。那......找個不會寫SQL但具備資料能力的人去學去用Prep?相信我,你不如花同樣的時間教會他寫SQL。(SQL的易學程度,大概只要花兩三小時就能搞定……SQL學不起來的,不要指望他能把Prep操作得好……)
話說回來,Prep有一個極大的亮點是ETL工具不具備的,它能將所有清洗、調整、整理等步驟給詳列下來,在過往這段的處理方式,通常是在SQL加註解、或ETL工具寫在備註,但這些方式都必須有人去維運(就是不會有人去維運的意思);而Prep用更有系統架構的方式把資料處理的步驟直接記錄下來,並且系統即時更新,省去了人工維運,也避免了交接斷層。(雖然這功能在這版本還不夠完整,說明會上直接被問到沒被記錄的更改內容...,但以Tableau的積極進取,應該是能很快改善的事。)
另一個隱性的亮點是,它能直接秀出資料中每個欄位的概況,但之所以稱隱性,是這版本暫時只撈了部分的data當sample去呈現,只看到部分是沒有用的,一定要全部!(以Tableau的積極進取...下略......)
不過參加完Tableau Prep的發表,更加深了我對這件事的信心:
要做資料處理,SQL仍然是至今CP值最好的解決方式。