iT邦幫忙

第 12 屆 iThome 鐵人賽

DAY 19
0
Software Development

30 天的 SFC 學習日誌系列 第 19

Day 19 - 文獻探討(7)- Softmax

大家好,我是毛毛。
今天是Day 19,其實只是要來把論文中使用到的演算法搞清楚~
所以嚴格上來說不太算是文獻探討XD
那麼就來開始今天的部分吧 ヽ(✿゚▽゚)ノ


Reinforcement learning-based QoS/QoE-aware service function chaining in software-driven 5G slices

這篇是2018年七月刊登在Trans. Emerg. Telecommun. Technol.上的論文。

昨天講到最常用來解決MAB的演算法,但是Greedy policy和Epsilon-greedy policy前面已經提過就不講了,今天主要來看Softmax,至於Upper Confidence Bound就留到明天打了,因為UCB的部分有點多 。・゚・(つд`゚)・゚・


Softmax

在統計力學與數學中,波茲曼分布或稱吉布斯分布是系統中的粒子在各種可能微觀量子態的機率分布、機率測度,或頻度分布。

  • https://ithelp.ithome.com.tw/upload/images/20200925/201299346Dv3jLDhyF.png
    • pi:量子態i的機率
    • epsilon_i:量子態i的能量
    • k:波茲曼常數
    • T:系統溫度
    • M:系統有的量子態數目

藉由上面的公式,作者改成了符合他環境中的公式:

  • https://ithelp.ithome.com.tw/upload/images/20200925/20129934aamb9qC5WL.png
    • 上面的epsilon_i就是這邊的Q-value值
    • T的話則是改成符號tau(tau > 0),但它們的意義其實是一樣的,都是溫度參數,就像是模擬退火演算法中的溫度機制
    • 這邊的tau會逐漸遞減
      • tau如果很接近0,表示會愈像是純粹採取exploitation的方法
      • 相反的,如果tau接近1,表示會愈像是純粹採取exploration的方法

那明天再來看UCB~ (´◓Д◔`)
大家明天見/images/emoticon/emoticon29.gif


上一篇
Day 18 - 文獻探討(6)
下一篇
Day 20 - 文獻探討(8)- UCB
系列文
30 天的 SFC 學習日誌30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言