大家好,我是毛毛。
今天是Day 19,其實只是要來把論文中使用到的演算法搞清楚~
所以嚴格上來說不太算是文獻探討XD
那麼就來開始今天的部分吧 ヽ(✿゚▽゚)ノ
這篇是2018年七月刊登在Trans. Emerg. Telecommun. Technol.上的論文。
昨天講到最常用來解決MAB的演算法,但是Greedy policy和Epsilon-greedy policy前面已經提過就不講了,今天主要來看Softmax,至於Upper Confidence Bound就留到明天打了,因為UCB的部分有點多 。・゚・(つд`゚)・゚・
在統計力學與數學中,波茲曼分布或稱吉布斯分布是系統中的粒子在各種可能微觀量子態的機率分布、機率測度,或頻度分布。
藉由上面的公式,作者改成了符合他環境中的公式:
那明天再來看UCB~ (´◓Д◔`)
大家明天見