雖然說 Big Data (大數據) 是一個很夯的話題, 但就像一個笑話:
Big Data is like teenage sex:Everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it so everyone else claims they are doing it too.
雖然說就大部份而言, 這笑話是真的, 只是誇張了點, 因為 Big Data 目前遇到的問題還是相當的多, 就像是前幾天有一個朋友問我, 為甚麼電子商務網站都宣稱想做或要做資料探勘或大數據, 但為甚麼沒人去做呢? 我回答了幾個問題點:
當然大家知道最大的問題還是台灣的市場與老版的企圖心都不太夠, 但拉回來, 身為工程師的我們, 真的有足夠的能力去擔當這責任嗎?
台灣的價值應該是在於人才, 而要去實作出這樣的系統須要:
有人把這三個角色畫成下面的圖我覺得蠻有實務感的:
這邊大概畫出這三個角色的可能關係, 但在實務界更多的是一個人當三個人用, 也就是你甚麼都要會, 最後大概變成一個人要會的東西是成為下面這樣:
雖然說大部份的人能夠做好一項就很了不起了, 但真的最好須要這三項領域的專才的人, 通常不是一個人做到, 而是至少三五個人去架構與協調出來, 只是在台灣是不用太期待.
而在這次鐵人賽的緣故, 我大概規劃了一個 "成為資料工程師最初的 28 堂課", 因為有太多人對成 Big Data / Data Mining 有興趣, 而不知道如何下手, 花了 30 天 (包含導言與結論) 列出了 28 堂課給大家參考, 雖然說是 28 堂課還不如說是 28 個科目, 只是最後發現 28 真的太少了, 所以有些科目還合併在一起.
這 28 堂課除了最後一堂外, 也是把課程分程三部份:
每一類別有 9 科, 下面就是列表:
換句話說, 念完這 27 個科目, 你就應該很有自信去面對任何資料的挑戰了, 接下來就是面對真實資料的戰場 (第 28 堂) 了: 實作.
把這些知識打下基礎, 真的有實作的能力, 才是這社會最缺的, 也才是這社會推進的原動力來源, 每一個人都想個當管理者, 每一個人都想當個出嘴不動手的專家, 最後沒有人動手, 只是真正的價值應該是實作出成果為前提阿, 雖然之後的管理, 行銷是讓價值更高, 可以把成果的價值乘上好幾倍, 但若沒有這基礎做出東西的話, 永遠不會有第一個 1 出現, 因為若沒有了 1, 0 乘上 100 還是 0 阿.
所以我們就應該先當那個 1 (The One) 吧.
* 圖一來源: http://www.slideshare.net/ckliu/z-b-38495724
* 圖二來源: http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram
最重要的,上司要「買帳 (Pay the bill as well as Approve the result )」的啦,否則 「Garbage in / Garbage out」垃圾還是垃圾嚕 ......