iT邦幫忙

2017 iT 邦幫忙鐵人賽
DAY 29
0
Big Data

從學生到職場:菜鳥資料科學家的第一個月系列 第 29

機器學習演算法 - 「學習」之外的事

「學習」之外的事

介紹了幾個常見的機器學習演算法,今天主要想補充一些學習方法核心之外的事情。介紹幾個優化的方法及常見的處理手法。

其他機器學習的分類

除了我們前面講過的大分類「Supervised」與「Unsupervised」之外,也有以下幾種比較特別的類型:

  • 半監督學習 (Semi-supervised learning):半監督是學習方法,指的是拿到的訓練資料中有些有標籤,有些沒有。
  • 增強學習 (reinforcement learning):會根據機器正確或錯誤進行調整,像是答對了就給獎勵,失敗了就處罰的概念,逐步調整權重。

Bias-Variance Tradeoff

在講 Bias-Variance Tradeoff 之前,先介紹兩個名詞:

  • Overfitting:找出來的模型受到訓練資料的影響太大,使得對預測的效果不佳。
  • Underfitting:模型對於資料的描述能力太差,無法正確解釋資料。

Bias-Variance Tradeoff 的意思是,當我們的模型太接近訓練資料造成 Overfitting,此時會產生低偏差、高變異;反之,如果模型的泛化能力不夠的話,對於資料預測效果不好,會成高偏差、低變異。所以必須要在「訓練得像」跟「泛化能力」中去調整,不能跟訓練資料差太遠,又要能準確的預測資料。

Normalization 與 Regularization

Normalization(一般化)與 Regularization(正規化)是兩個看起來很像的名詞,但實際上是兩個完全不一樣的東西。

Normalization 是針對不同屬性的資料可能的範圍不一樣,而把它們縮放成同樣區間的方法。不同的值域,可能會造成計算距離時放大了該屬性的效果,因此通常會把不同的屬性都限定的差不多的範圍內。

Kernel method

Kernel method 是一種對映維度的方法,希望將資料對映到不同維度又不失原本資料的特性。簡單來說,如果在二維的資料中,我們用來分類資料的模型是一條線;那麼如果把二維的資料轉成三維,還是模型還是一條線,那麼再轉回二維的時候,模型可能會比一條線更複雜。

簡單來說,如果要有比較好的分類能力,可以用比較複雜的模型。而 Kernel 是另一種角度,是去調整資料維度,而維持用比較簡單的模型。

Reference

  1. 偏差和變異之權衡 (Bias-Variance Tradeoff)

上一篇
機器學習演算法 - 支持向量機與類神經網路
下一篇
資料科學的未完待續
系列文
從學生到職場:菜鳥資料科學家的第一個月30

尚未有邦友留言

立即登入留言