iT邦幫忙

第 12 屆 iThome 鐵人賽

DAY 7
0
AI & Data

主管可能很機車,但數學不會,數學不會就是不會:盡學渣之力說數學原理系列 第 7

[Day 6]MLL 與相對熵

上次說到 MLL 與最小化相對熵是等價的
首先先來說說 MLL
以下文章內含推導、公式
若有不適請盡速關閉網頁或直接跳過~XD


一個似然方程 的意思是
在已知觀察點集合 D 的情況下,模型參數是 的機率
這可以等價於
如果模型參數是
模型可以產生出觀察點集合 D 的機率

我們的目標就是要找一個模型參數 使它的似然方程最大
也就是要做

推導過程就不說了,請看剖析深度學習(3),我們自動快轉
我們可以得到目標式

計算 max 時
對原是加減任一定值,都不影響計算max
對原式乘或除一個正數,都不影響計算 max
若對原式乘或除一個負數,可將計算 max 改為計算 min
我們刻意的對原式乘
則原式變為
也就是 的平均值!!

然後當數據量夠多時,根據大數法則: 期望值 平均值
把如上的平均值換成期望值

(這稱為交叉熵,cross entropy)

!!!
這不就是 相對熵 的前半段嗎?
由於後半段給定觀察數據後就不再改變,是個定值
所以計算 的最小值
等價於計算相對熵的最小值


流程就是...
Likelihood function(由於樣本i.i.d.,運算是相乘) → log Likelihood function(取對數,運算變相加)
→ max LL (找造成觀測集最大機率的參數) → 乘 -1 除 len(D) (max 變 min,原式變平均)
→ 大數法則(平均變期望值,此時是交叉熵) → 加上信息熵(由於是定值,不影響結果,原式變相對熵)

總結:max LL → min 相對熵,結束 :)


前次也說過相對熵越小代表與真實函數越接近
所以 MLL 就是在找假設分配下最好的參數設定
也可由此得證

所以如:AIC、BIC等
以 MLL 為基礎的模型分數
也可以更合理的被我們使用了

接下來會再說說
什麼是向前特徵選擇(Forward Selection)、向後特徵選擇(Backward Selection)、逐步特徵選擇(Stepwise Selection)
並說明如何決定是否納入一個特徵


上一篇
[Day 5]相對熵舉例
下一篇
[Day 7]MLL 與相對熵舉例
系列文
主管可能很機車,但數學不會,數學不會就是不會:盡學渣之力說數學原理30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言