Day8-什麼是機器學習?

2019 iT 邦幫忙鐵人賽

DAY 8

AI & Data

大數據的世代需學會的幾件事系列第 8 篇

2019鐵人賽

queenawu

2018-10-23 21:32:25

6110 瀏覽

分享至

在之前幾天講解，Python在資料數據上的基本操作，今天要來談談什麼是機器學習(Machine Learning)，簡單來說，就是讓機器去學習，機器要如何去學習呢?

1.篩選出正確需要的資料
2.將資料分類
3.訓練資料(包含訓練及測試兩階段)
4.將訓練完成的知料模型來預測未來資料

在前面幾篇文章中，利用python的numpy、pandas可以做許多資料的基本操作，像是可以把蒐集到有缺失值的資料刪除，也可以篩選出某個資料的關鍵屬性...等，接著將資料依據資料的屬性作正確的方式分類，並使用正確的演算法，例如：支持向量機（SVM)、隨機梯度下降（SGD）、決策樹（Decision Trees）...等，再來將分類完成的大量資料分為訓練資料及測試資料。

為什麼要有測試資料呢?因為在資料訓練上，訓練模型只會越來越好(訓練的精確值越來越高)，為了避免過度擬合(Over fitting)的狀況，可以利用測試資料來確認，訓練完成的資料模型的測試出來的資料是否值得信任，最後，就可以利用訓練完成資料模型來預測未來的數據。