「資料科學」:從可用的結構化和非結構化資料中來做探勘或定量分析,進而理解,萃取知識,到制訂出可行動化的結果。
簡單來說就是:使用資料 進行決策 驅動行動
#備註:為什麼說是「資料科學怪人」呢?因為,搞資料科學的人都怪怪的,嗯!不是啦!,是因為他們整天在資料堆裡面打滾,對資料敏感度非常高,數理邏輯能力很強,資訊技術應用能力佳,還要應付難搞的應用需求變化,這樣的人如果不是「怪人」,那什麼才叫怪人呢?
「資料科學」並不是一門新的學問, 「學習知識」與 「資料探勘」 等用詞其實在學術界已經使用數十年,並不是甚麼新領域。從以前的被動式輔助管理決策「專家系統」,隨著資訊科技的演進,儲存、運算、網路的快速發展,一直演進到現在的主動式智慧化應用服務「人工智能模式」,從之前的報表推理、發現問題、檢討改善,現在,我們可以透過資料科學的分析模型,學習框架的智慧化服務,讓我們可以訓練模型、推測未來、事先預測、提前因應。
要打怪也要有技能,資料科學怪人可不簡單,可以稱得上是「萬能的天神」。
「資料科學」涵蓋的範圍非常廣泛,舉凡:數學、演算法、統計、樣本、線性代數、集合理論,一直到:資料挖掘、資料模型、資料視學、機器學習、神經網路、人工智慧等,這些都算是包含在「資料科學」的框架之中。另外,主要的資料科學方法不外乎是:基於領域知識之下,透過了解資料,提出對的問題需求,建立好的假設,取得對的資料,驗證方法結果,最後得到對的資料。
(”對” 這個字非常重要,如果沒有了 “對” 這個字,那你可能白忙一場,這還算是比較好的,甚至你有可能得到錯的資訊,做出錯的決策,代價可能就不只是白忙而已了。)
但是,值得一提的是,我們必須要注意避免落入「資料科學」迷思,這將會令人不知道什麼時候該停止做資料分析 / 機器學習 / 人工智慧。
從原始資料 (Data) 一直到洞察知識 (Insight),「資料科學」主要是協助我們去了解資料、感受挖掘、學習知識、輔助決策,依照循序漸進的四個步驟,一步一步從資料演進到知識。
要打怪也要有步驟,循序漸進慢慢來,不要一開始就想要打魔王,不然很快就會 GG 了。
PS : 「資料就是金礦(Data is Money)」這句話沒有錯,但是,其實嚴格來說,資料應該稱為是「肥料」,幫助企業能夠茁壯成長的滋養肥料。