資料科學白話來講,就是透過資料數據來解決問題的一門科學,我們在得知客戶的需求、環境限制等因素後,利用能蒐集到的資料建立一套「模型」,透過模型的計算來分析問題及解法,透過此解法則可挖掘問題背後的商業價值。
而資料科學的領域包含了領域知識、統計方法和程式能力,三者缺一不可,要想成為該領域的資料科學家,除了須有該領域的知識外,還需透過統計方法和程式能力系統化的呈現資料科學的效益。
機器學習為人工智慧(AI)領域的一個分支,即機器透過學習資料的經驗找到資料運行的規則,並改善演算法的效能,是一種對複雜系統建模的替代方法,例如機器人透過閱讀無數棋譜來決定下一步棋該如何下才能達到最大效益,而機器學習的問題可以分為以下幾個種類:
監督式學習的資料集包含(X,Y),X為各項特徵,Y為Label,或是統計所說的應變量。
若Label的類型為類別型資料(Categorical),稱為"分類問題",Ex:製程良率分析(Good/Bad)
若Label的類型為連續型資料(Continuous),稱為"回歸問題",Ex:股價預測(股價為多少)
資料集中只有特徵而沒有特徵,演算法僅能根據特徵區分種類,用於分群分析(Clustering)。
Ex:判斷金融交易是否異常(詐欺狀況)
要進行資料分析,我們不可能完全都靠人力,而是讓機器學會我們人類的概念想法,並以高效率的工作方式實現他。那資料是透過什麼學習的呢?沒錯!就是經驗,而經驗來自大量的資料,今天我們想要透過一份身體資料預測一個人是男是女,我們可能會先蒐集大量的人類男女資料,並讓機器去找到一些關鍵影響性別的因素,也就是我們常說的特徵(Features),例如:身高、體重、體脂...等等,所以不管我們要分析什麼或是預測什麼,擁有一個好的資料集是很重要的首要步驟,擁有越多的數據資料,便能歸納得出更好且更精準的結果!
我們來總結一下機器學習的問題類型:
瑕疵分類(Defect Classification)、異常檢測(Anomaly detection)、好壞分類(Good/Bad Classification)
產量預測(Yield Prediction)、虛擬計量(Virtual Metrology)
相關性(Correlation)、優先級(Prioritization)
相似性搜索(Similarity Search)、分組(Grouping)
運作優化(Operation Optimization)、參數優化(Parameter Optimization)
預測性維護(Predictive Maintenance)、敏感性分析(Sensitivity Analysis)
介紹了這麼多,大家也可以反思一下,是不是所有複雜的問題都適合用機器學習的方法來解決呢?
答案顯然是否定的,適合使用資料分析/機器學習的問題特性應該有下列幾點:
1.衡量的指標可以改進
2.沒有明確的規則
3.有預期的資料
在遇到資料科學的問題時,大家不妨也可以先想想這個問題的本質,是不是符合以上三點,"知己知彼才能百戰百勝",只要了解資料的特性以及問題的本質,做起資料分析就可以事半功倍了!