介紹了幾個常見的機器學習演算法,今天主要想補充一些學習方法核心之外的事情。介紹幾個優化的方法及常見的處理手法。
除了我們前面講過的大分類「Supervised」與「Unsupervised」之外,也有以下幾種比較特別的類型:
在講 Bias-Variance Tradeoff 之前,先介紹兩個名詞:
Bias-Variance Tradeoff 的意思是,當我們的模型太接近訓練資料造成 Overfitting,此時會產生低偏差、高變異;反之,如果模型的泛化能力不夠的話,對於資料預測效果不好,會成高偏差、低變異。所以必須要在「訓練得像」跟「泛化能力」中去調整,不能跟訓練資料差太遠,又要能準確的預測資料。
Normalization(一般化)與 Regularization(正規化)是兩個看起來很像的名詞,但實際上是兩個完全不一樣的東西。
Normalization 是針對不同屬性的資料可能的範圍不一樣,而把它們縮放成同樣區間的方法。不同的值域,可能會造成計算距離時放大了該屬性的效果,因此通常會把不同的屬性都限定的差不多的範圍內。
Kernel method 是一種對映維度的方法,希望將資料對映到不同維度又不失原本資料的特性。簡單來說,如果在二維的資料中,我們用來分類資料的模型是一條線;那麼如果把二維的資料轉成三維,還是模型還是一條線,那麼再轉回二維的時候,模型可能會比一條線更複雜。
簡單來說,如果要有比較好的分類能力,可以用比較複雜的模型。而 Kernel 是另一種角度,是去調整資料維度,而維持用比較簡單的模型。