【Day 10】分類（Classification）（上）

13th鐵人賽

guanjie0618

團隊人工逗點智慧

2021-09-23 21:08:40

3124 瀏覽

分享至

找一個function，其輸入為 $x$ ，輸出為 $x$ 屬於哪一個class。

範例應用

找一個輸入是某一隻寶可夢，輸出是那隻寶可夢屬性的function。

如何把寶可夢當作數值輸入？

寶可夢有很多特性能夠數值化，例如：整體的強度、生命值、攻擊力、防禦力、特殊攻擊力、特殊攻擊力以及防禦力等等，而我們就能將這些數值組成一個vector來表示寶可夢。

如何做分類？

Classification as Regression?

假設我們只要輸出 $x$ 屬於 class 1 或 class 2 ，那用Regression就可以將 class 1 當作 1，class 2 當作 -1 去訓練，訓練完模型在測試的時候，如果輸出的數值比較接近 1 就把它分類為 class 1，比較接近 -1 就把它分類為 class 2，即以 0 為分類標準。
然而這樣會有一個問題，就是當你有一些訓練資料讓模型輸出遠大於 1 的時候就會讓原本的模型產生很大的誤差，而導致模型會把模型進行調整，讓誤差不要這麼大，反而對classification來說不是一個好的function。

理想的做法

在function $f(x)$ 裡面增加一個function $g(x)$ ，如果輸出大於零就分類為 class 1，其他就分類為 class 2。Loss則可以定義成function $f$ 在訓練資料上預測錯誤的次數。透過Perceptron, SVM等方法才找到最好的function，這些方法以後有機會會再介紹。

生成模型(Generative Model)

假設有兩個類別，裡面都有籃球跟綠球，從中拿出一顆球 $x$ 出來但不知道是從哪個類別拿出來的，因此我們就必須去計算那顆球從兩個類別拿出來的機率分別是多少。
我們需要知道 class 1 和 class 2 抽一個 $x$ 出來的機率 $P(C_1), P(C_2)$ ，以及 class 1 和 class 2 抽出我們現在考慮的這個 $x$ 的機率 $P(x|C_1), P(x|C_2)$ 。有了這些數值我們就可以計算這個 $x$ 屬於 class 1 的機率 $P(C_1|x)$ ，就可以知道說 $x$ 從哪個class拿出來的機率最大，機率最大的就是正確答案，而我們會希望從訓練資料裡把我們需要的四個機率的值估測出來。
生成模型(Generative Model) 可以生成一個 $x$ ，因為可以計算某一個 $x$ 出現的機率，如果可以計算出每一個 $x$ 出現的機率，你就可以知道 $x$ 的分佈，則可以用這個分佈來產生 $x$ 。