機率與統計 - Statistical Modeling - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2017 iT 邦幫忙鐵人賽

DAY 19

Big Data

從學生到職場：菜鳥資料科學家的第一個月系列第 19 篇

機率與統計 - Statistical Modeling

2017鐵人賽

WeiYuan

2016-12-21 22:53:58

5366 瀏覽

分享至

機器學習與統計模型

在資料科學的團隊中，一般分析者來自兩種不同的背景流派：

機器學習/資料探勘派
統計分析模型派

機器學習與統計模型有什麼不同？

一般來說，這兩個項目所研究的目標相近，不同的是使用的背景不同。機器學習是資工領域發展的議題；統計模型是統計學所探討的領域。這是一張有趣的圖來說明資料科學中之間錯綜複雜的交織關係：

SAS institute: the universe of data science

首先，不管是機器學習或是統計模型都有一個共同的目標－ Learning from Data. 這兩種方法的目的都是透過一些處理資料的過程中，對資料更進一步的瞭解與認識。

來看看這兩者在科學上的簡單定義：

Machine Learning: an algorithm that can learn from data without relying on rules-based programming.
Statistical Modelling: formalization of relationships between variables in the form of mathematical equations.

換個角度，看看實際上使用上有什麼差異。這是一張 McKinsey 用於客戶風險預測問題的結果，有 A 、 B 兩個變數。綠色線是統計方法得出的規則；等曲線是機器學習方法發現的，兩者皆能夠指出風險較高的趨勢。

McKinsey: Understand the risk level of customers churn over a period of time for a Telecom company

統計方法用一個方程式去描述分類問題，將資料找出一個分割線將結果分成兩類。然而，從機器學習的方法找出來的是一圈一圈的等曲線，看起來似乎可以得到更廣泛的結果，而不只是簡單的分類問題。

機器學習是從資工及人工智慧中發展而來的領域，透過非規則的方法去學習資料分布的關係。統計模型是統計學中利用這種變量去描述與結果的關係。統計模型是基於與說嚴格的限制下去進行的，稱為假設檢定，這也是與機器學習方法上的不同。

基於假設檢定下的發展，使得統計模型能找出更貼近「現有資料」的趨勢。然而，預測的目的是為了找出「未來資料」或所有資料，但假設會使得資料太貼近現有資料（機器學習中稱為過擬和的一種問題）。嚴格的假設也成了統計學習的一種雙面刃，有一句資料科學中流傳的名言是這樣講的：the lesser assumptions in a predictive model, higher will be the predictive power.

算式與定義

機器學習

一種不依賴於規則設計的數據學習算法；計算機科學和人工智慧的一個分支，通過數據學習構建分析系統，不依賴明確的構建規則。

Output Y = f( Input X ): X -> Y

統計模型

以數學方程形式表現變量之間關係的程式化表達；數學的分支用以發現變量之間相關關係從而預測輸出。

Dependent Variable Y  = f( Independent Variable X ) + error function

Reference

用 JavaScript 做資料視覺化 - D3

淺談資料探勘

系列文

從學生到職場：菜鳥資料科學家的第一個月共 28 篇

RSS系列文訂閱系列文

89 人訂閱

完整目錄

直播研討會

1 則留言

杜岳華

iT邦新手 5 級 ‧ 2016-12-21 23:07:56

補充一下，像是k-nearest neighbors algorithm就是屬於機器學習，但是跟統計不太有關係。
不過反過來屬於統計的，好像都有被實作成機器學習齁（？

回應
檢舉

登入發表回應

我要留言

立即登入留言

參賽組數

1064 組

團體組數

40 組

累計文章數

22199 篇

完賽人數

600 人

企業安全開發流程升級之路

臺灣資安大會 |

29 分

規模化敏捷的實戰：從六人 Scrum 到五十人跨部門 LeSS

Hello World Dev Conference |

40 分

Kubernetes 資安攻防 - 採用機密運算與零信任策略，守護您的應用

Kubernetes Summit |

28 分

Stacking Insight

MWC |

57 分

強化雲端架構韌性，打造 AI 創新應用

Cloud Summit 臺灣雲端大會 |

28 分

從中華電信轉型歷程探討大型企業數位轉型策略

Cloud Summit 臺灣雲端大會 |

29 分

【淺談滲透測試與弱點掃描服務差異】

安碁資訊｜資安防護服務．企業營運夥伴 |

22 分

智能化 ELK 平台：從高效能 AI 搜索到全面監控與安全防護

Cloud Summit 臺灣雲端大會 |

31 分

用人工智慧助軟體開發

MWC |

69 分

Intelligent SRE Service - Issue Diagnosis System

Hello World Dev Conference |

57 分

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# windows server linux css react vue.js

IT邦幫忙

從學生到職場：菜鳥資料科學家的第一個月系列 第 19 篇

機率與統計 - Statistical Modeling

機器學習 與 統計模型

算式與定義

機器學習

統計模型

Reference

1 則留言

我要留言

標記使用者

從學生到職場：菜鳥資料科學家的第一個月系列第 19 篇

機器學習與統計模型