iT邦幫忙

第 12 屆 iT 邦幫忙鐵人賽

DAY 29
0
AI & Data

Knock Knock! Deep Learning系列 第 29

Day 28 / DL x RL / RL 不只會打電動?

RL 比較知名的應用場合和研究成果大部分都分佈於遊戲、自駕車、和機器人領域。事實上 RL 可以有非常廣的應用,今天就來介紹三篇比較不一樣的 RL 應用,或許更能啟發大家將 RL 使用在自己的任務上。

RL for Real-Time Ads Bidding

(Cai et al., 2017) Real-Time Bidding by Reinforcement Learning in Display Advertising

當一個使用者進入頁面準備看到廣告時,各個廣告主會開始即時競標這個廣告欄位,競標成功即可投放廣告。一個公司的 real-time ads bidding(廣告即時競價)做得好不好,攸關他們的收入來源,但要做得好背後需要複雜的 algorithm 來達成。

這篇 paper 利用 RL 來進行 real-time ads bidding。Formulation 如下:

  • Agent:bidding agent。
  • Environment:廣告市場和使用者。
  • State:對於廣告投放決策有影響的因素,例如預算、使用者資訊等等。
  • Action:廣告競標金額。
  • Reward:如果競標成功,會損失投放金額,但或許能獲得使用者的點擊。

RL formulation
—— RL formulation 示意圖。

當然訓練 environment 會基於歷史 data,否則讓 agent 直接進入市場訓練成本太高。

Paper 中使用 neural network 幫助在 large-scale 的環境中 approximate value function,並使用 model-based learning 來做學習。

最後實驗在兩個 real-world dataset 上,分別超越了 state-of-the-art performance 達 16.7% 和 7.4%,甚至實際放在真實環境中跑,取得了點擊率多 44.7% 的大幅進步。

相信看到這樣的成果,業界肯定都開始請 ads 團隊慢慢導入 RL 了!

RL for News Recommendation

(Zheng et al., 2018) DRN: A Deep Reinforcement Learning Framework for News Recommendation

Recommentation system(推薦系統)一直是很多產品很重要的一環。新聞、貼文、影片推薦等等,其實也可以用 RL 來試試。

這篇 paper 用 RL 來改善傳統 news recommendation 中只在乎當下點擊率而不考慮長遠對用戶的影響,或是一再推薦同一篇新聞的毛病。

RL formulation 如下:

RL formulation
—— RL formulation 示意圖。

Paper 中使用類似 DQN 的架構來訓練,並特別著重有足夠的 exploration 來避免重複推薦同一則新聞,因此除了傳統 https://chart.googleapis.com/chart?cht=tx&chl=%5Cepsilon-greedy,還加入了 explore network 來加強 exploration。

最後讓 agent 訓練在 6 個月的新聞推薦互動歷史 data 上,並放在真實環境中跑了 1 個月。兩個階段的點擊率、ranking quality、和多樣程度對比 baseline performance 都超越了不少。

RL 在 recommendation system 這個非常重要的領域越來越受到重視,未來肯定有更多有趣的發展可以期待。

RL for Healthcare

(Yauney et al., 2018) Reinforcement Learning with Action-Derived Rewards for Chemotherapy and Clinical Trial Dosing Regimen Selection

機器學習在醫療領域通常很難應用,因為 data 可能太私密不易取得或太少不好訓練,有些任務又對精準度要求極高。RL 因為不需要 data 來訓練,或許是個讓機器學習深入醫療領域的好選擇。

這篇 paper 運用 RL 來決定化療和臨床試驗要投入的用藥劑量。Formulation 大致如下:

  • Agent:假醫生。
  • Environment:用現有的 TGI(Tumor Growth Inhibition,腫瘤抑制率)model 來模擬。這個 model 可以預測用藥後腫瘤體積的改變。
  • State:病人的 MTD(Mean Tumor Diameter,腫瘤大小)歷史軌跡。
  • Action:投藥劑量。Paper 中將劑量 discretize。
  • Reward:MTD 大小改變。

RL formulation
—— RL formulation 示意圖。

Paper 中用了 deep Q-learning 將 model 訓練在不同的醫療限制和目標之下,並將結果跟專業醫生的 policy 比較。結果上來說,在沒有太多限制和額外目標的情況下,policy 效果可以媲美專業醫生。這也表示 RL 是可以用在協助醫療的任務上的。

但這個 model 只能夠媲美而不能超越專業醫師判斷。如此一來其實無法取得患者的信任,不太可能實際運用,只能當作是一個前端的研究結果吧。

在醫療界中,不知道是不是真的有這樣子運用 RL model 在幫助做決策,畢竟如果沒有百分之百的精準度,那麼百分之百會起爭議。但 RL 在醫療界的應用依然是個很有趣的問題,值得對醫療有興趣的人多多探索。

參考資料

  1. Applications of Reinforcement Learning in Real World
  2. 10 Real-Life Applications of Reinforcement Learning
  3. A review of recent reinforcement learning applications to healthcare

上一篇
Day 27 / DL x RL / 令世界驚艷的 AlphaGo
下一篇
Day 29 / DL x RL / RL 總結與發展
系列文
Knock Knock! Deep Learning31

尚未有邦友留言

立即登入留言