【Day 07】Step 3 Gradient Decent

第 11 屆 iThome 鐵人賽

DAY 7

AI & Data

實實在在地學習人工智慧－基礎理論探討與經典案例實作系列第 7 篇

11th鐵人賽

John

2019-09-22 23:47:59

2980 瀏覽

分享至

昨天講完損失函數的式子，以及實際操作了一遍數學，今天要來分享Gradient Decent拉！
我們要先補充一個名詞，叫做優化器！

優化器(optimizer)

優化器是在coding中才會碰上的問題，因為優化器有很多很多種類可以挑選，如GradientDescentOptimizer、AdagradOptimizer、RMSPropOptimizer、AdamOptimizer等等，選擇一個適合的優化器也是一門學問！
而優化器具體來說在幹嘛呢？透過優化的方法，對目標函數進行優化進而找到最好的函式，而優化的方式就是要最小化損失函數。
也就是說，優化器要用來找到損失函數最小的函式！

今天只會提到最常用也最簡單的優化方法-Gradient Descent

梯度下降(Gradient Decent)

先來看一張圖：

圖片出處
之前有提到梯度下降法將會帶領機器找到擁有最小損失函數的那個函式！而從上方這張圖可以看到，一開始我們會選擇一個隨便的位置，然後開始做Gradient Decent，那Gradient Decent將會帶我們找到有最低loss的那個點。

梯度下降的數學理論

我們先以更簡單的式子y = w * x去解釋，我們可以把梯度下降的式子寫成：

w* : 更新後的參數
arg min : 從後面的式子取到最小值時，裡面變量的取值。
L() : 損失函數

那實際上到底要怎麼找呢？
首先我們會找到一點w0(起始位置)

然後，對L()做一次微分，dL/dw|w=w0。

機器會藉由微分出來的結果是正還是負，去更新w，像上圖中，斜率(dL/dw|w=w0)算出來會是負的(左高右低)，那麼機器就會知道新的w要往右邊走(所以η前面才會是負號)，所以w0要增加；反之，如果(dL/dw|w=w0)算出來會是正的(左低右高)，那麼就會往左邊走。
而式子會變成：　w = w0 - η × (dL/dw|w=w0)