隨機梯度下降法跟原本的Gradient Descent的差別在,它是每次隨機取樣一個 出來去計算它的Loss,並更新參數,而Gradient Descent是去計算所有資料的Loss才去更新參數。
假設我們Regression的function要輸入兩個feature ,那如果 分佈的範圍不一樣就建議把它們縮放(scaling)。
舉例來說如果 $$ 的數值都是比較小的, 的值都是比較大的,那假設我們把 的值都增加一個固定的值, 對於 的影響會比較小,而 對於 的影響會比較大。
如果 的範圍是接近的,那它們對於Loss的影響力就會變得差不多,畫出來就會變成正圓形,這樣不管從什麼地方都可以很容易地到達最低點,因此就可以更容易、更有效地去更新參數。
假設有 筆範本,每一筆範本裡都有一組feature。我們要做的就是去計算每一個dimension 的平均值 以及標準差 ,然後再將第 個範本的第 個component代入公是去做計算並更新,最後會發現所有dimension的平均值會是 0,而變異數會是 1。