網路上有一張梗圖(作者https://www.instagram.com/sandserifcomics/
)
完美呈現了許多人對於機器學習跟統計的混淆與誤解
簡單表達這兩者的區別在於:「機器學習著眼於預測結果,統計學在研究數據中不同內容的關係。」
統計學可以研究數據並建立出模型,並可以利用模型進行預測,而且這個模型我們大致看得懂是怎麼運作的。
而機器學習則是犧牲掉模型的可讀性而換取預測的準確度。
簡單來說,透過機器學習得到的預測工具就像是一個魔法水晶球,它能夠告訴你未來會發生什麼事,但我們不知道為什麼可以那麼準;例如:「透過機器學習得到的結果,客人如果有哪些特徵,推薦他買哪些產品很容易買單。」。而透過統計推論得到的模型就例如:「如果台灣成年男子腰圍超過 90 cm,幾年內會得到糖尿病等慢性疾病的風險提高 N 倍。」這種答案。
機器學習是立足在統計學之上的一門學問;沒有統計學,機器學習就不存在。
如果我們想從既有的大筆數據建立出一個能高度準確的預測模型,那我們可以選擇使用機器學習來得到演算法;但如果我們是想從數據中找出各變數之間的關係或建立出一個推論,那麼我們應該使用統計學。