七、主要技術
有機器學習(Machine Learning)和深度學習(Deap Learning),機器學習又可以分為三類:
• 監督式學習(Supervised Learning)
在資料探勘中稱為分類(Classification),對資料的分類特徵做標籤,利用學習演算法歸納出判斷法則,它擅長分類及預測數值。它可以分成兩個階段:學習階段將部分標籤好的資料送去訓練,然後在測試階段檢測訓練結果,查看正確機率並反覆調整。分類有二元分類(最常使用的分法為Decision Tree)和多元分類,而分類的方法如下:
╴SVM演算法(Support Vector Machine)基於代數的方法,在高維度空間中找到一個函數與各類資料點的距離最大化,這是一種非線性、超平面的切割方式
╴回歸分析(Regression)屬於統計學上分析數據的方法,找出與已知資料誤差最小的方程式,掌握了自變量與因變量就做預測
╴K-NN演算法找出與目標資料最相近的K個點,以鄰近值的屬性值的平均做為目標資料的屬性值
✱過度分類(Overfitting)
分類分得越細精確度越高,但不一定適合測試結果,有時候分得太細反而會降低效率,所以為了避免過度分類的發生,有兩種做法:到時間點停止分類(Pre-pruning)以及建完分類樹在做修剪(Post-pruning)
參考資料
https://www.youtube.com/watch?v=pDW_OXc5oI4&list=PLdSWxzxDhd3Hacd6DgLQ2PpH9nvyIXVj5