大家好,我是毛毛。
今天是Day 20
那麼就來開始看UCB吧 ヽ(✿゚▽゚)ノ
這篇是2018年七月刊登在Trans. Emerg. Telecommun. Technol.上的論文。
昨天講過了Softmax,今天就來搞懂Upper Confidence Bound(UCB)啦~
藉由上面UCB1,作者將其套用在他的環境中:
這邊就來實際的看看UCB怎麼運作的,以MAB的問題來做:
在一開始,我們先假設每個老虎機的期望值是相同的,如下圖:
以上就是UCB如何運作的~ (´◓Д◔`)
大家明天見