Day 19 - 文獻探討（7）- Softmax - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

第 12 屆 iThome 鐵人賽

DAY 19

Software Development

Day 19 - 文獻探討（7）- Softmax

12th鐵人賽

1174 瀏覽

大家好，我是毛毛。
今天是Day 19，其實只是要來把論文中使用到的演算法搞清楚~
所以嚴格上來說不太算是文獻探討XD
那麼就來開始今天的部分吧ヽ(✿ﾟ▽ﾟ)ノ

這篇是2018年七月刊登在Trans. Emerg. Telecommun. Technol.上的論文。

昨天講到最常用來解決MAB的演算法，但是Greedy policy和Epsilon-greedy policy前面已經提過就不講了，今天主要來看Softmax，至於Upper Confidence Bound就留到明天打了，因為UCB的部分有點多。･ﾟ･(つд`ﾟ)･ﾟ･

在統計力學與數學中，波茲曼分布或稱吉布斯分布是系統中的粒子在各種可能微觀量子態的機率分布、機率測度，或頻度分布。

藉由上面的公式，作者改成了符合他環境中的公式：

- 上面的epsilon_i就是這邊的Q-value值
- T的話則是改成符號tau（tau > 0），但它們的意義其實是一樣的，都是溫度參數，就像是模擬退火演算法中的溫度機制
- 這邊的tau會逐漸遞減
  - tau如果很接近0，表示會愈像是純粹採取exploitation的方法
  - 相反的，如果tau接近1，表示會愈像是純粹採取exploration的方法