2021 iThome 鐵人賽

DAY 12

AI & Data

30天搞懂機器學習是否搞錯了什麼系列第 12 篇

【Day 12】邏輯迴歸（Logistic Regression）（上）

13th鐵人賽

guanjie0618

團隊人工逗點智慧

2021-09-25 16:38:01

1671 瀏覽

分享至

步驟一：Function Set

昨天的最後我們提到我們要找一個事後機率(Posterior Probability)，如果它大於 0.5 就輸出 $C_1$ ，否則就輸出 $C_2$ 。如果是使用Gaussian，則 $P_{w,b}(C_1|x) = \sigma (z)$ ， $z = w \cdot x + b$ 。

Function set： $f_{w,b}(x) = P_{w,b}(C_1|x)$

如果用圖像化表示則整個模型如下圖所示，將所有的輸入 $x_i$ 分別乘上 $w_i$ 再加上 $b$ 就會得得到 $z$ ，即 $z = \displaystyle \sum_i w_ix_i + b$ ，接著 $z$ 通過Sigmoid function輸出的值就是事後機率，這整件事情我們就稱為邏輯迴歸(Logistic Regression)。

邏輯迴歸(Logistic Regression) v.s. 線性迴歸(Linear Regression)

步驟二：Goodness of a Function

訓練資料需要標記(Label)，也就是說每個 $x$ 都要標記它屬於哪一個class。假設我們的訓練資料是從事後機率所產生的，只要給我們一個 $w, b$ 我們就決定了事後機率，就可以去計算某一組 $w, b$ 產生 $N$ 筆訓練資料的機率，而我們要找一組可以最大化這個機率的 $w^*, b^*$ 。

經過一些數學運算則可以將式子改為 $w^*, b^* = arg \ \displaystyle \min_{w, b} -lnL(w,b)$ 。

整理過後可以發現 $\Sigma$ 後面那一長串是兩個伯努利分佈(Bernoulli distribution)的交叉熵(Cross-entropy)，Cross-entropy代表的涵義是這兩個distribution有多接近，如果兩個分佈是一樣的，那Cross-entropy算出來就會是 0。因此我們在做的就是去算所有樣本的Cross-entropy的總和。

邏輯迴歸(Logistic Regression) v.s. 線性迴歸(Linear Regression)

步驟三：Find the best function

要找到一個最好的function，就要讓 $-lnL(w, b)$ 最小化，也就是要最小化所有樣本的Cross-entropy的總和。可以用梯度下降法(Gradient Descent)，就是做對 $w$ 的偏微分。

經過整理之後會得到 $-lnL(w, b) = \displaystyle \sum_n -(\hat y - f_{w, b}(x^n)) x^n_i$ 。從括弧中的式子可以看出 $w$ 的更新取決於Learning rate $\eta$ 、 $x_i^n$ 以及 $\hat y^n - f_{w, b}(x^n)$ ，這個式子代表function的輸出跟理想目標的差距大小，如果離目標越遠，則應該更新越多次參數。

邏輯迴歸(Logistic Regression) v.s. 線性迴歸(Linear Regression)

邏輯迴歸(Logistic Regression) + 方差(Square error)

將邏輯迴歸的式子的輸出減掉 $\hat y$ 的平方加總當作Loss function，一樣用梯度下降法對 $\Sigma$ 後面的式子對 $w$ 做偏微分，會得到如下圖所示的結果。

會遇到一個問題就是，假設今天第 $n$ 筆資料是 class 1 $\ \hat y^n = 1$ ，當 $f_{w, b}(x^n) = 1$ 就代表你很接近你的目標，將它們的值代入式子算出來微分等於 0，而當 $f_{w, b}(x^n) = 0$ 就代表你離你的目標還很遠，將它們的值代入式子算出來微分也等於 0。

如果把參數的變化對Total Loss作圖，選擇Cross-entropy跟選擇Square error的參數的變化跟loss的變化如下圖所示。
從圖中可以看到，以Cross-entropy來說距離目標越遠，微分值就越大，參數更新越快，但是如果是Square error，當距離目標很遠的時候，微分卻非常小，就會導致不知道距離目標的遠近。