在之前幾天講解,Python在資料數據上的基本操作,今天要來談談什麼是機器學習(Machine Learning),簡單來說,就是讓機器去學習,機器要如何去學習呢?
1.篩選出正確需要的資料
2.將資料分類
3.訓練資料(包含訓練及測試兩階段)
4.將訓練完成的知料模型來預測未來資料
在前面幾篇文章中,利用python的numpy、pandas可以做許多資料的基本操作,像是可以把蒐集到有缺失值的資料刪除,也可以篩選出某個資料的關鍵屬性...等,接著將資料依據資料的屬性作正確的方式分類,並使用正確的演算法,例如:支持向量機(SVM)、隨機梯度下降(SGD)、決策樹(Decision Trees)...等,再來將分類完成的大量資料分為訓練資料及測試資料。
為什麼要有測試資料呢?因為在資料訓練上,訓練模型只會越來越好(訓練的精確值越來越高),為了避免過度擬合(Over fitting)的狀況,可以利用測試資料來確認,訓練完成的資料模型的測試出來的資料是否值得信任,最後,就可以利用訓練完成資料模型來預測未來的數據。