iT邦幫忙

第 12 屆 iT 邦幫忙鐵人賽

DAY 3
0

接續上一篇最後的問題
「如何評估兩個模型函數的差異」
再說這個之前
先來說說信息熵(Information Entropy,熵 ㄉㄧ ,雖然我都念熵 : ) )


我們用「熵」衡量一個系統的不確定性
熵越大時,代表這個系統越充滿不確定性

或者說,在一個充滿不確定性的系統中
當某件事情發生時,我們所獲得的信息量越大
這個信息量的度量就稱作「熵」

我們希望獲得信息的感覺
大概就跟下圖的情境一樣


熵的公式為

484很神奇~
為什麼會有 log? 為什麼有負號(-)? 為什麼有 sigma?

熵最原始的想法是
在某系統之下,獲取信息量的期望值

上式的 是指信息量

我們會希望上式的 可以滿足以下要求:

  • 越容易發生的事情越沒有信息量。()
  • 互相獨立的兩事件發生時,信息量相當於各別發生時的信息量和。()

從上述兩要求中
可以立刻聯想到最簡單的解為

最後再做一點對數的運算
就可以得到熵的公式了~

上述的對數並沒有指定底數
底數只是影響最後結果的「單位」而已
如果以 2 為底,則單位為「bit」
如果以 e 為底,則單位為「nat」


講了這麼多....
到底「熵」這東西對我們想要的「評估兩個模型函數的差異」有什麼用呢?
別急,讓我們下(ㄊㄨㄛ)次(ㄊㄧㄢ)說(ㄕㄨˋ)


上一篇
[Day 1]為什麼要做特徵選擇
下一篇
[Day 3]信息熵舉例
系列文
主管可能很機車,但數學不會,數學不會就是不會:盡學渣之力說數學原理12

尚未有邦友留言

立即登入留言