上回我們複習了迴歸直線的基本概念,今天我們來看機器學習的基本模型。
資料 Data: 圖像及其標籤, ${\left( x_i, y_i \right) }_{i=1}^N \in \mathbb{R}^D \times {-1, 1}$
假設集合 Hypothesis Class: 分類器 $h$ 的集合 $\mathcal{H}$,其中 $h: \mathbb{R}^D \rightarrow {-1, 1}$ 把圖像映射到標籤
損失函數 Loss Function: 函數 $\lambda: \mathcal{H} \times \mathbb{R}^D \times {-1, 1} \rightarrow \mathbb{R}$,例如一個 $0$-$1$ 的損失函數定義如下:
$$
\lambda(h, (x, y)) =
\begin{cases}
1, & \text{if}\ h(x) \neq y \
0, & \text{otherwise}
\end{cases}
$$
機器學習的問題就會變成:當給定資料後,要如何從假設集合裡選一個最好的分類器 ,對應其損失函數,也就會變成:
$$
h^*=\mathop{\arg\min}{h \in \mathcal{H}} \sum{i=1}^N \lambda(h, (x_i, y_i))
$$
這就是最標準的機器學習問題,如果對應上回提到的迴歸直線模型,則 $h(x) = mx+k$,而 $\lambda(h, (x, y))= \left(y-h(x)\right)^2$,我們要找到最好的 $h$,意思就是要決定出 $m$ 及 $k$ ,當然,再進階一點的話,大家就會聽過過度擬合(overfitting)的問題,有許多解決發法,目前普遍就是會把資料切成三份來做,分別就是訓練集、驗證集及測試集(Training、validation,and overfitting),如此在選擇分類器 $h$,主要就是靠驗證集中的損失函數資訊來選擇。
今天介紹了最標準、最基本的機器學習模型,有助於未來的推廣以及解釋一些理論。