我們知道監督式學習,就是要准備一個Data set,這個Data set裏面的每一筆資料都會有輸入的特徵和相對應的輸出的label。在數學上的定義爲有m種特徵的實數向量的有限集合,也就是:X = {x̄_1, x̄_2, ... , x̄_n}, x̄ ∈ ℝ^m
然而在機器學習領域中,很多元素都存在隨機性,如數據採樣、模型初始化、優化算法、正則化等。
因爲有了隨機性,因此我們需要在意在一個多變量分佈D之中取出的每一個x,我們希望所有的樣本都是獨立同分布的(i.i.d),所以這代表對於所有的x̄而言,他們都屬於同一個分佈D,且考慮一個有m個value的任意子集:P(x̄_1, x̄_2, ... , x̄_m) = \prod_{i=1}^{m} P(x̄_i)
如果這個Data set的資料對應到的輸出是一個數值,我們稱這個程序叫做迴歸;Y = {y_1, y_2, ... , y_n}, y_n ∈ (0,1) or y_n ∈ ℝ+
如果這個Data set的資料對應到的輸出是類別,我們稱這個程序叫做分類;Y = {y_1, y_2, ... , y_i}, y_i ∈ {0,1} or y_i ∈ {foods, toys, books, furnitures}
如果它們内部采用參數向量來決定實際實例y,則成爲參數學習:y = r(x̄, θ) or y = c(x̄, θ)
今天第一次嘗試用打字打出式子(而不是截圖),找各種符號花了一點額外的時間,因此内容會比較少,但都是基本且重要的觀念。