[Day 6]MLL 與相對熵

第 12 屆 iThome 鐵人賽

DAY 7

AI & Data

主管可能很機車，但數學不會，數學不會就是不會：盡學渣之力說數學原理系列第 7 篇

12th鐵人賽

雜魚2號

2020-09-20 12:38:12

1877 瀏覽

分享至

上次說到 MLL 與最小化相對熵是等價的
首先先來說說 MLL
以下文章內含推導、公式
若有不適請盡速關閉網頁或直接跳過~XD

一個似然方程的意思是
在已知觀察點集合 D 的情況下，模型參數是的機率
這可以等價於
如果模型參數是時
模型可以產生出觀察點集合 D 的機率

我們的目標就是要找一個模型參數使它的似然方程最大
也就是要做

推導過程就不說了，請看剖析深度學習(3)，我們自動快轉
我們可以得到目標式

計算 max 時
對原是加減任一定值，都不影響計算max
對原式乘或除一個正數，都不影響計算 max
若對原式乘或除一個負數，可將計算 max 改為計算 min
我們刻意的對原式乘
則原式變為
也就是的平均值!!

然後當數據量夠多時，根據大數法則： 期望值平均值
把如上的平均值換成期望值

(這稱為交叉熵，cross entropy)

!!!
這不就是相對熵的前半段嗎？
由於後半段給定觀察數據後就不再改變，是個定值
所以計算的最小值
等價於計算相對熵的最小值

流程就是...
Likelihood function(由於樣本i.i.d.，運算是相乘) → log Likelihood function(取對數，運算變相加)
→ max LL (找造成觀測集最大機率的參數) → 乘 -1 除 len(D) (max 變 min，原式變平均)
→ 大數法則(平均變期望值，此時是交叉熵) → 加上信息熵(由於是定值，不影響結果，原式變相對熵)

總結：max LL → min 相對熵，結束 :)

前次也說過相對熵越小代表與真實函數越接近
所以 MLL 就是在找假設分配下最好的參數設定
也可由此得證

所以如：AIC、BIC等
以 MLL 為基礎的模型分數
也可以更合理的被我們使用了

接下來會再說說
什麼是向前特徵選擇(Forward Selection)、向後特徵選擇(Backward Selection)、逐步特徵選擇(Stepwise Selection)
並說明如何決定是否納入一個特徵