06 從 hard-margin SVM 到 soft-margin SVM

2019 iT 邦幫忙鐵人賽

DAY 5

AI & Data

機器學習模型圖書館：從傳統模型到深度學習系列第 6 篇

2019鐵人賽 machine learning 機器學習 svm

杜岳華

2018-10-06 21:12:02

4551 瀏覽

分享至

從前面的 kernel SVM 當中我們已經獲得了很強大的模型，可是他還是會有不足之處，像是當資料有雜訊的時候就容易將每個資料點都個別分開。

有時候我們反而希望模型在面對雜訊上不要那麼敏感，或是不要把每個資料點都分對，這時候怎麼辦呢？

Hard-margin SVM

從這張圖來看，我們或許可以接受這樣的線其實還不錯，只是資料多了一點雜訊。如果讓模型硬要把所有資料點都分對的話，邊界就會非常複雜，就會變成 overfitting。

我們是不是有什麼辦法去修正這個模型呢？

我們原本的模型是：

$https://chart.googleapis.com/chart?cht=tx&chl=%5Cbegin%7Balign%7D%20%5Carg%5Cmin%20_%7B%5Cmathbf%7Bw%7D%2C%20b%7D%20%26%5C%20%5C%20%5C%20%5C%20%20%20%20%20%20%5Cfrac%7B1%7D%7B2%7D%20%5Cmathbf%7Bw%7D%5ET%5Cmathbf%7Bw%7D%20%5C%5C%5C%5C%20%5Ctext%7Bsubject%20to%7D%20%26%5C%20%5C%20%5C%20%5C%20%20%20%20%20%20%5Cforall%20i%2C%20y_i%20(%5Cmathbf%7Bw%7D%5ET%5Cmathbf%7Bx_i%7D%20%2B%20b)%20%5Cge%201%20%5Cend%7Balign%7D$

我們可以藉由在最佳化目標上加上一些 regularization $\sum _{n=1}^N [y_n \ne sign(\mathbf{w}^T\mathbf{z_n} + b) ]$ 。

$https://chart.googleapis.com/chart?cht=tx&chl=%5Cbegin%7Balign%7D%20%5Carg%5Cmin_%7B%5Cmathbf%7Bw%7D%2C%20b%7D%20%26%5C%20%5C%20%5C%20%5C%20%20%20%20%20%20%5Cfrac%7B1%7D%7B2%7D%20%5Cmathbf%7Bw%7D%5ET%5Cmathbf%7Bw%7D%20%2B%20C%20%5Csum%20_%7Bn%3D1%7D%5EN%20%5By_n%20%5Cne%20sign(%5Cmathbf%7Bw%7D%5ET%5Cmathbf%7Bz_n%7D%20%2B%20b)%20%5D%20%5C%5C%5C%5C%20%5Cend%7Balign%7D$
$\begin{align} \text{subject to} &\ \ \ \ ... \end{align}$

這樣的 regularization 項我們可以仿照之前的方法，把他改成 $\sum _{n=1}^N y_n (\mathbf{w}^T\mathbf{z_n} + b)$ 。

如果考慮 $y_n (\mathbf{w}^T\mathbf{z_n} + b)$ ，如果答對的話，他會是大於等於 1 的值，相反，如果答錯的話...........，我們只能確定他是負值，沒辦法確定他的範圍。

這樣的話，我們直接引入一個值 $\xi$ 來代表 $y_n (\mathbf{w}^T\mathbf{z_n} + b)$ 到底有多大程度答錯了。

$https://chart.googleapis.com/chart?cht=tx&chl=%5Cbegin%7Balign%7D%20%5Carg%5Cmin_%7B%5Cmathbf%7Bw%7D%2C%20b%2C%20%5Cmathbf%7B%5Cxi%7D%7D%20%26%5C%20%5C%20%5C%20%5C%20%20%20%20%20%20%5Cfrac%7B1%7D%7B2%7D%20%5Cmathbf%7Bw%7D%5ET%5Cmathbf%7Bw%7D%20%2B%20C%20%5Csum%20_%7Bn%3D1%7D%5EN%20%5Cxi_n%20%5C%5C%5C%5C%20%5Cend%7Balign%7D$
$\begin{align} \text{subject to} &\ \ \ \ \forall i, y_i (\mathbf{w}^T\mathbf{x_i} + b) \ge 1 - \xi_n \\\\ \end{align}$
$\begin{align} \text{ } &\ \ \ \ \forall n, \xi_n \ge 0 \end{align}$