大數據(Big Data) -3.歷史與現在

2019 iT 邦幫忙鐵人賽

DAY 18

AI & Data

AI無法一步登天，讓我們先從專有名詞定義開始。系列第 18 篇

2019鐵人賽

張小馬~

2018-10-18 22:00:17

4701 瀏覽

分享至

解釋三(歷史)

我們再往更早的年代看一些，畢竟雖然2010年【大數據(Big Data)】才如神兵天將般登場，但做人不能忘本，就像一個祖師爺等級的人，從小馬背後攸攸地飄出，只說了句：「小兔崽子，這才是Big Data...」我們就只能俯首稱臣，點頭搗蒜般地說是。

延續前篇的解釋一和解釋二...

解釋三：已經超越一般正常營運機構，所備硬體能儲存的資料量
造句：公司資料累積至今已成了Big Data，我們可能要思考使用雲端儲存的服務。

歐洲核子研究組織(CERN, European Organization for Nuclear Research)是最先(1970~)遇到資料量大到無法儲存的組織，也因此開啟了網路發展，進入網路時代。但他們的資料量大，是用PB當作單位在計，1PB = 1024TB、1TB = 1024GB、1GB = 1024MB。在我經驗上，縱使一年的交易明細有2000萬筆，實則也不過就是1~2G左右的大小(視各筆明細使用欄位的狀況而訂)。和動輒以PB在計算的CERN比起來，實在小巫見大巫。

然而，縱使要針對PB等級的資料量做處理，我前段文章所述的資料處理過程，仍是足以套用，並不會因為資料量大小，而有不同的處理過程。反而背後必須使用的硬體規格、網路技術能否負荷，就是另外一個領域的大議題了。甚至，我所謂的【另外一個領域的大議題】，在解釋三的本質上，才真的是【大數據的議題】。

小結(現在)

至今三個有關Big Data的解釋及造句，才是我認為最正確的用法。但很遺憾，在積非成是的現在(2018/10)，Big Data已經被當作整個資料處理過程的代名詞，從資料匯入、資料清洗、資料採礦、資料分析等等，舉凡只要和資料或數據沾得上邊，都會隨便被講成是Big Data。

換句話說，使用這詞彙的人，根本不管他在談的是資料處理的哪個階段，而就很簡而化之地說出了「Big Data」這個專有名詞。如同小馬上個月參與Tableau的年度峰會台北場，現場有一千七百人報名，受邀上台的用戶分享，開口也是【Tableau這套Big Data軟體，讓我們公司可以很簡單地……】。

以下再列舉幾個可能不夠精準的用法：

數據分析師：「我的工作內容是Big Data。」
資料庫管理師：「我的工作內容是Big Data。」
網管人員：「我們幫助大家建立Big Data環境。」
投影片製作者：「我們的週報結論都是用Big Data做出來的。」
報表小公主：「我們用Excel處理Big Data。」
企業老闆：｢我們運用Big Data進行決策。」
BI軟體廠商：「我們這是一套Big Data軟體。」
儲存硬體廠商：「我們的硬體專門處理Big Data。」
數據顧問公司：「我們已經有幾十年的Big Data處理經驗。」
政府官員：「我們建了一個Big Data平台供大家下載資料。」

好吧，事已至此，
小馬我就不再鑽牛角尖說：

「慢著！上述講的是不是Big Data還大有得討論呢！」

我們，就讓Big Data，以一個超人的形象，存活在大家的心中吧！
讓我們再次掌聲，感謝Big Data的來訪，啊~ 飛走了~

「小馬，千萬不要放棄治療唷！」
Big Data遙遙對我說了這麼一句，
最後化成一粒星點，綻放了幾道耀眼的光芒。

好的我不放棄治療！
讓我對自己再注射一劑強心針吧！

這就像盲試蘿蔔排骨湯一樣，一碗碗蘿蔔排骨湯擺在面前，有碗是媽媽煮的、有碗是路邊小販、有碗是首次嘗試的新手煮的、有碗是昨天其他人喝剩加熱的……，但其中有一碗，是米其林級的大主廚煮的！

大多數的人，並沒有能耐去區分哪一碗才是米其林等級，甚至可能只有大主廚自己才知道；就像我們做數據分析的最後報告，並沒有人有辦法判斷我們運用了多大量的資料，多繁雜的統計工法，只有我們自己才知道，一樣相同道理。

因此，硬要將資料處理或數據分析的一切，都說成是Big Data；
就像是把每碗蘿蔔排骨湯，都說它出自米其林主廚之手一樣。
那麼的偏見無知與自以為是。

我想，我參與鐵人賽的初衷，就是為了講上面最後這段話吧！
鋪陳了半個月15天的文章，終於能將我對Big Data的想法給談清楚，
縱使最後也不過是成為下面這段話的其中三篇文章，也算不枉此行了。

讓我再說一次...

Big Data~ Big Data~ 天下古今幾多之文章，假汝之名以行！

大數據番外篇3

Tableau剛導入我前公司之際，是台灣代理商才剛開始代理的第一年，第一場Tableau發表會，是在30人左右的會議空間。當下我對於Tableau的運作還不清楚，也不知道就是一套BI tool，只知道我老大叫我去參加，只知道他們自稱「處理Big Data的軟體」。

做數據分析的都清楚這句話：

八成工準備數據，二成工分析數據。

「處理Big Data的軟體」？我當下對於Tableau要如何做資料清洗感到困惑，難道現在已經有「自動下水道清潔工具!?(我們常戲稱資料清洗是在做清水溝或清下水道的動作)」。於是一位年輕人，我估計和我年紀相仿，當時最多可能了不起三十歲，半跪在我座位旁，耐著性子釐清我想問的問題，交談了一陣，我才終於明白Tableau是套BI tool，資料清洗果然還是另外一道課題。

交談完畢交換名片時，才赫然發現對方掛著「總經理」的職稱，而正是該間代理商的老闆。他不亢不卑在我旁邊回答我問題的態度，儘管已經n多年過去，至今仍記憶猶新。當然，最後我前公司透過這間代理商採購了Tableau，小馬我也走進了資料處理數據分析這條大路。

而資料清洗這件事，在今年2018，Tableau也跳進來參與了，在這次的新商品發表會上介紹了這項「Tableau Prep」工具。參加這類活動，除了瞭解具體的功能更新、小技巧操作，我認為最重要的是：可以藉此一窺這領域的發展進度和未來方向。
　
看到Tableau Prep這玩意兒的問世，蠻感五味雜陳的。它是一套號稱(將來要)可以取代ETL工具，聲稱在做資料清洗、資料整理的全新軟體。簡單講，它把平常SQL在寫的內容，試著用更人性化的使用介面，希望讓沒有IT背景的end user也能試圖做到平常SQL在做的資料處理。
　
從Prep這套軟體，我首先意識到的第一件事：視覺化的開發、統計方法統計數據的輔助，走到Tableau Desktop 10.n版，大概差不多該有的都有了，基本元素都已經設計進去，只剩下懂不懂得運用一些組合技巧，例如把單調呆板的圓餅圖變成具設計感的空心圓餅、把長條圖變成漏斗圖、把兩個地圖圖資合併等等諸如此類。

也因為視覺化這段已經發展得差不多，
Tableau才會選擇再往前一步，
跳進【資料處理】這個大坑...呃不是...這個新領域。

以正面角度看，就我經驗，對於Tableau定期更新改版加強新功能的積極進取態度，如果某天，真的「Prep取代了所有的ETL工具」，我也不會感到意外，甚至蠻樂觀其成的。畢竟要能做到視覺化人性化的軟體，放眼望去，我只能期待Tableau。

但是...最重要的就這個但是，你打算讓原本使用Tableau Desktop版的人，也往前一步去使用Prep嗎？這才是重點，若問我建議，我會說：這兩個是截然不同的領域。Prep實際上存在逆選擇的議題，要能把Prep用得好，這名user必須具備充分的資料架構知識和資料處理經驗，而這種user，會被不具備此能力的user，稱為【IT人員】。

這樣懂我意思了吧......Prep的初衷是讓非IT人員也能用，但能真的把它用好的，基本上仍然是IT人員。然後問題來了，這個IT人員會跟Prep說：你好麻煩要拉半天，我用SQL一下就寫完了。那......找個不會寫SQL但具備資料能力的人去學去用Prep？相信我，你不如花同樣的時間教會他寫SQL。(SQL的易學程度，大概只要花兩三小時就能搞定……SQL學不起來的，不要指望他能把Prep操作得好……)

話說回來，Prep有一個極大的亮點是ETL工具不具備的，它能將所有清洗、調整、整理等步驟給詳列下來，在過往這段的處理方式，通常是在SQL加註解、或ETL工具寫在備註，但這些方式都必須有人去維運(就是不會有人去維運的意思)；而Prep用更有系統架構的方式把資料處理的步驟直接記錄下來，並且系統即時更新，省去了人工維運，也避免了交接斷層。(雖然這功能在這版本還不夠完整，說明會上直接被問到沒被記錄的更改內容...，但以Tableau的積極進取，應該是能很快改善的事。)

另一個隱性的亮點是，它能直接秀出資料中每個欄位的概況，但之所以稱隱性，是這版本暫時只撈了部分的data當sample去呈現，只看到部分是沒有用的，一定要全部！(以Tableau的積極進取...下略......)

不過參加完Tableau Prep的發表，更加深了我對這件事的信心：