RL 比較知名的應用場合和研究成果大部分都分佈於遊戲、自駕車、和機器人領域。事實上 RL 可以有非常廣的應用,今天就來介紹三篇比較不一樣的 RL 應用,或許更能啟發大家將 RL 使用在自己的任務上。
(Cai et al., 2017) Real-Time Bidding by Reinforcement Learning in Display Advertising
當一個使用者進入頁面準備看到廣告時,各個廣告主會開始即時競標這個廣告欄位,競標成功即可投放廣告。一個公司的 real-time ads bidding(廣告即時競價)做得好不好,攸關他們的收入來源,但要做得好背後需要複雜的 algorithm 來達成。
這篇 paper 利用 RL 來進行 real-time ads bidding。Formulation 如下:
—— RL formulation 示意圖。
當然訓練 environment 會基於歷史 data,否則讓 agent 直接進入市場訓練成本太高。
Paper 中使用 neural network 幫助在 large-scale 的環境中 approximate value function,並使用 model-based learning 來做學習。
最後實驗在兩個 real-world dataset 上,分別超越了 state-of-the-art performance 達 16.7% 和 7.4%,甚至實際放在真實環境中跑,取得了點擊率多 44.7% 的大幅進步。
相信看到這樣的成果,業界肯定都開始請 ads 團隊慢慢導入 RL 了!
(Zheng et al., 2018) DRN: A Deep Reinforcement Learning Framework for News Recommendation
Recommentation system(推薦系統)一直是很多產品很重要的一環。新聞、貼文、影片推薦等等,其實也可以用 RL 來試試。
這篇 paper 用 RL 來改善傳統 news recommendation 中只在乎當下點擊率而不考慮長遠對用戶的影響,或是一再推薦同一篇新聞的毛病。
RL formulation 如下:
—— RL formulation 示意圖。
Paper 中使用類似 DQN 的架構來訓練,並特別著重有足夠的 exploration 來避免重複推薦同一則新聞,因此除了傳統 -greedy,還加入了 explore network 來加強 exploration。
最後讓 agent 訓練在 6 個月的新聞推薦互動歷史 data 上,並放在真實環境中跑了 1 個月。兩個階段的點擊率、ranking quality、和多樣程度對比 baseline performance 都超越了不少。
RL 在 recommendation system 這個非常重要的領域越來越受到重視,未來肯定有更多有趣的發展可以期待。
機器學習在醫療領域通常很難應用,因為 data 可能太私密不易取得或太少不好訓練,有些任務又對精準度要求極高。RL 因為不需要 data 來訓練,或許是個讓機器學習深入醫療領域的好選擇。
這篇 paper 運用 RL 來決定化療和臨床試驗要投入的用藥劑量。Formulation 大致如下:
—— RL formulation 示意圖。
Paper 中用了 deep Q-learning 將 model 訓練在不同的醫療限制和目標之下,並將結果跟專業醫生的 policy 比較。結果上來說,在沒有太多限制和額外目標的情況下,policy 效果可以媲美專業醫生。這也表示 RL 是可以用在協助醫療的任務上的。
但這個 model 只能夠媲美而不能超越專業醫師判斷。如此一來其實無法取得患者的信任,不太可能實際運用,只能當作是一個前端的研究結果吧。
在醫療界中,不知道是不是真的有這樣子運用 RL model 在幫助做決策,畢竟如果沒有百分之百的精準度,那麼百分之百會起爭議。但 RL 在醫療界的應用依然是個很有趣的問題,值得對醫療有興趣的人多多探索。