iT邦幫忙

第 12 屆 iThome 鐵人賽

DAY 16
0
Software Development

30 天的 SFC 學習日誌系列 第 16

Day 16 - 文獻探討(4)

大家好,我是毛毛。
今天是Day 16
今天看的是penalty的部分~ ヽ(✿゚▽゚)ノ


Reinforcement learning-based QoS/QoE-aware service function chaining in software-driven 5G slices

這篇是2018年七月刊登在Trans. Emerg. Telecommun. Technol.上的論文。


在傳統的強化學習模型,並沒有明確地指定限制,所以如果我們採用標準強化學習,並將QoE作為獎勵,這樣並不會有QoS的限制,因此要讓強化學習的Reward滿足QoE和QoS的方法就是加上QoS的限制。

QoS constraint penalty

  • 如果QoS metrics和QoS限制之間的距離非常接近,則在選擇下一個VNF實例時違反QoS限制的可能性很高。
    • 底下是QoS限制的penalty,距離的計算是用歐式距離的計算方式
    • https://ithelp.ithome.com.tw/upload/images/20200922/20129934j4Fqi00rbS.png
      P是一個常數

OPEX constraint penalty

  • 如果要實例化一個新的VNF會需要付出大量的OPEX,因為可能需要讀取遠端的VM images,所以就會需要額外支出。
    • 底下是OPEX的penalty
      https://ithelp.ithome.com.tw/upload/images/20200922/20129934L1gh8mA4MF.png
    • 一條SFC chain c的整體OPEX如下
      https://ithelp.ithome.com.tw/upload/images/20200922/20129934BFNn3l9YBn.png

Reward

  • 一條SFC chain c的immediate Reward如下

    • https://ithelp.ithome.com.tw/upload/images/20200922/20129934hRcvrlqjP9.png
  • 對於那些參與建構chain c的VNF,chain c的reward均勻分佈在它們之間,公式如下

    • https://ithelp.ithome.com.tw/upload/images/20200922/20129934RJcQ52ukzG.png

因為QoE要大,需要的資源就要多;而滿足QoS的限制,花費的資源就要小於該限制,代表花的資源相對要減少,所以透過上面它設計的Reward讓強化學習的效果能滿足QoE又不違背QoS的限制。

明天在看Deep Q-network的東西啦~
大家明天見/images/emoticon/emoticon29.gif


上一篇
Day 15 - 文獻探討(3)
下一篇
Day 17 - 文獻探討(5)
系列文
30 天的 SFC 學習日誌30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言