一來是大部分的機器學習競賽或是大公司內部的演算都是使用xgboost,準確率集便不知道原理不回調整參數都有相當的水準,
據說xgboost是由extreme + gradient + boosting + cart 組成 ,我先從cart看起。
全名叫Classification and Regression Tree,分類與回歸樹
這東西有個很有名的指標是到時候xgboost畫出來也會看到的Gini指數。
分裂指標(Gini指數): 公式是 pi(1-pi)的加總
概念上來說 如果有1,2,3...等分類的話, p1 = p2 = p3 的Gini指數會是最大的,也就是說分裂指標越小表示辨別度越高。
也就是說在所有可能的特徵中,如果可以找到一個點切割使得Gini指數最小,那我們就認為他是最優點,並依照這個點做為決策樹的區分(樹枝)。
然後因為有不同的變數,所以要一直找到滿足所有變數為止。