2021 iThome 鐵人賽

DAY 4

0

AI & Data

30天搞懂機器學習是否搞錯了什麼系列第 4 篇

【Day 4】機器學習基本功（二） --- Regression

13th鐵人賽

團隊人工逗點智慧

2021-09-17 21:28:38

3151 瀏覽

分享至

如何找到一個函式(function)？(上)

接下來會以李宏毅老師在影片中講的例子來做說明整理。
尋找一個輸入為youtube後台資訊，輸出為該頻道隔天總點閱率的函式。

步驟一：寫出一個帶有未知參數的函式

初步猜測函數的數學式為 $y = b + w x _1$
$y$ : 今天頻道預測的總觀看人數
$x_1$ : 昨天頻道總觀看人數(已知)
$b, w$ : 未知參數
Model: $y = b + w x _1$
Feature: $x_1$
Weight: $w$
Bias: $b$

步驟二：從訓練資料定義損失函數(Loss)

損失函數： $L(b, w)$ ，損失函數的輸入為Model裡面的參數，即為 $b, w$ 。輸出為 $b, w$ 數值的好壞，必須從訓練資料進行計算。

假設 $b = 0.5k, w = 1$ ，並將訓練資料的點閱人數帶入Model中，得出隔天預測的點閱人數 $y$ ，並與隔天實際點閱人數 $\hat y$ 相減得出 $e$ ， $e$ 為估測值與真實值的差距，再將所有誤差加總，得到損失函數 $https://chart.googleapis.com/chart?cht=tx&chl=L%20%3D%20%5Cfrac%201%20N%20%5Cdisplaystyle%20%5Csum_n%20e_n$ ， $L$ 越大，代表這組參數 $b, w$ 越不好，反之則越好。

損失函數選擇：
Mean absolute error(MAE): $e = |y - \hat y|$
Mean square error(MSE): $e = (y - \hat y)^2$
如果 $y, \hat y$ 都為機率分佈，則會選擇交叉熵(Cross-Entropy)。

步驟三：解最佳化問題

找一組能讓Loss最小的參數 $w^*, b^*$

梯度下降法(Gradient Descent)

假設只有 $w$ 這個參數，代不同的 $w$ 進去會得到不同的Loss，產生圖中曲線(error surface)。

隨機選取初始點 $w^0$
計算參數對Loss的微分，即為切線斜率
斜率為負：增加 $w$ 的值
斜率為正：減少 $w$ 的值
參數調整範圍大小取決於
- 斜率大，調整範圍大。斜率小，調整範圍小。
- 學習率(Learning rate) $\eta$ ：越大，參數更新快。越小，參數更新慢。
超參數(hyperparameters)：需自行設定、調整。
反覆進行前面的操作，即會找到解

需要注意的是梯度下降法有時會沒有辦法找到全域最佳解(global minima)，可能會找到區域最佳解(local minima)，根據初始點的不同有機率會找到不同的解。

重新回到考慮兩個參數的情況，跟上述一樣會先隨機選取初始點，再個別對Loss進行微分，並更新參數。

參考資料

李宏毅老師 - 機器學習2021

【Day 3】機器學習基本功（一）

【Day 5】機器學習基本功（三） --- Regression

系列文

30天搞懂機器學習是否搞錯了什麼共 30 篇

目錄

RSS系列文訂閱系列文

16 人訂閱

完整目錄

熱門推薦

{{ item.subject }}

{{ item.channelVendor }} | {{ item.webinarstarted }} |

{{ formatDate(item.duration) }}

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19860 篇

完賽人數

528 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙