[Data Science 到底是什麼從一個完全外行角度來看][13]Data的運用 - 介紹篇 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2018 iT 邦幫忙鐵人賽

DAY 13

Data Technology

Data Science 到底是什麼 - 從一個完全外行角度來看系列第 13 篇

[Data Science 到底是什麼從一個完全外行角度來看][13]Data的運用 - 介紹篇

2018鐵人賽 data science data processing

Alan Tsai

團隊2018 新年快樂

2017-12-31 20:56:08

2062 瀏覽

分享至

圖片來源： https://pixabay.com/en/books-spine-colors-pastel-1099067/ 和 https://pixabay.com/en/math-blackboard-education-classroom-1547018/
還記得之前提到過，如果Data是原油那麼Data Science就是提煉成石油的技術。

到目前為止，解決了Data的儲存和運算的部分。但是就算可以處理Big Data，該怎麼處理？如何把處理結果變成有意義或者可以動作的策略？

如果說，Big Data的儲存和運算在武俠小說裡面屬於內功的話那麼Data Process Workflow（資料處理流程）就同等於招式一樣。

沒有足夠的內力（Data），招式在精妙也沒有用（就像瞎子摸象，就算摸的技巧再好，也因為局限的關係摸不到全貌，一定會有偏頗）。

反過來說，如果內力深厚，但是不會招式，那麼同等於英雄無用武之地。

在這個系列的接下來將會著重在介紹Data Processing的部分。這篇將會是概觀介紹。

同步發表於我的部落格：http://blog.alantsai.net/2017/12/data-science-series-13-data-processing-workflow-introduction.html (部落格的格式會漂亮一些，ithome不支援html好不方便）

Data Processing Workflow指的是什麼？

Data Processing Workflow其實非常廣的一個詞，所以這邊會定義一下這裡指的是什麼。

Data Processing Workflow圖
還記不記得之前的這張圖？這次有做了一些調整。

中間的Big Data

這邊變成了灰色表示已經講完了。Big Data在中間是因為整個的核心其實是Data。如果沒有Data就算有在好的“招式”也沒有用。

一切從解決問題開始

整個的Workflow從想找到某個問題的解決方案開始。這個非常重要。因為接下來的處理方式都是依照這個問題來延伸出來。

這個和開發軟體一樣，如果一開始的需求分析就錯了，那麼後面做的再好客戶一定不滿意，因為這個不是他想解決的問題。

題外話，還記得之前提到Data Scientist有提到會需要某個Domain Knowledge（領域知識） - 因為沒有這個領域知識根本問不出問題。

Exploratory Analysis階段

在這個部分，將會依照想要處理的問題去收集資料、收集完了之後需要對資料進行處理和分析，然後才會有所謂的clean data（乾淨）。

反過來說，如果一開始問題定義不明確，或者對於整個Domain不熟悉，那麼收集的資料一定會有偏頗，對有偏頗的資料進行處理和分析肯定就錯了。

這個階段會需要：

資料清洗的能力 - 在不同領域有不同名稱，例如：Extract Transofrm and Load (ETL)或者Data Munging
統計學的概念 - 這樣才會有辦法作分析
Data Visualization（資料視覺化）的技能 - 這樣才更好了解資料
這個階段也是傳統Data Analysis在做的事情。

這個階段花的時間最多 - 有做過研究，大約80%的時間都是花在這個階段。

Machine Learning (機器學習) 階段

傳統的Data Analysis（資料分析）是不會有Machine Learning的階段，或者準確一點說，並不會像現在Machine Learning的定義方式來產生出模型。

個人覺得Machine Learning（以下簡稱ML）這個詞有點誤導傾向，因為聽到ML第一個想到的是 AI。好像是在講AI自動進化的感覺。但是，實際上不是，或者說只是AI進化的一小塊部分而已。

ML process
整個Machine Learning的目的是在建立一個Prediction Model。透過這個Prediction Model，只需要把資料丟進去，就會得到“準確”的預測結果。

而Prediction Model其實就是 Clean Data + Algorithm最後產生出來。

而Algorithm是什麼？其實就是一些Statistical Model（統計模型）定義出來。

所以ML和一般程式開發很不一樣，一般程式開發寫的是邏輯，但是ML其實不是寫邏輯，而是挑選最適合目前預測內容和資料的algorithm。所以他在調整的是兩個東西：

Training Data (也就是Clean Data)
Algorithm - 使用哪個演算法和演算法本身參數的調整
所以最後的Prediction Model找到的不是最終解法，而是找到Data之間的關聯性，因此Model不會一直有效，因為假設什麼原因導致那個關聯性斷了，Model就不準確了。

以上是一個非常快速的介紹ML，之後會到了ML階段會有更深入的一些介紹。