Day 28 / DL x RL / RL 不只會打電動？

第 12 屆 iThome 鐵人賽

DAY 29

AI & Data

12th鐵人賽

2808 瀏覽

RL 比較知名的應用場合和研究成果大部分都分佈於遊戲、自駕車、和機器人領域。事實上 RL 可以有非常廣的應用，今天就來介紹三篇比較不一樣的 RL 應用，或許更能啟發大家將 RL 使用在自己的任務上。

RL for Real-Time Ads Bidding

當一個使用者進入頁面準備看到廣告時，各個廣告主會開始即時競標這個廣告欄位，競標成功即可投放廣告。一個公司的 real-time ads bidding（廣告即時競價）做得好不好，攸關他們的收入來源，但要做得好背後需要複雜的 algorithm 來達成。

這篇 paper 利用 RL 來進行 real-time ads bidding。Formulation 如下：

—— RL formulation 示意圖。

當然訓練 environment 會基於歷史 data，否則讓 agent 直接進入市場訓練成本太高。

Paper 中使用 neural network 幫助在 large-scale 的環境中 approximate value function，並使用 model-based learning 來做學習。

最後實驗在兩個 real-world dataset 上，分別超越了 state-of-the-art performance 達 16.7% 和 7.4%，甚至實際放在真實環境中跑，取得了點擊率多 44.7% 的大幅進步。

相信看到這樣的成果，業界肯定都開始請 ads 團隊慢慢導入 RL 了！

Recommentation system（推薦系統）一直是很多產品很重要的一環。新聞、貼文、影片推薦等等，其實也可以用 RL 來試試。

這篇 paper 用 RL 來改善傳統 news recommendation 中只在乎當下點擊率而不考慮長遠對用戶的影響，或是一再推薦同一篇新聞的毛病。

RL formulation 如下：

—— RL formulation 示意圖。

Paper 中使用類似 DQN 的架構來訓練，並特別著重有足夠的 exploration 來避免重複推薦同一則新聞，因此除了傳統 $\epsilon$ -greedy，還加入了 explore network 來加強 exploration。

最後讓 agent 訓練在 6 個月的新聞推薦互動歷史 data 上，並放在真實環境中跑了 1 個月。兩個階段的點擊率、ranking quality、和多樣程度對比 baseline performance 都超越了不少。

RL 在 recommendation system 這個非常重要的領域越來越受到重視，未來肯定有更多有趣的發展可以期待。

機器學習在醫療領域通常很難應用，因為 data 可能太私密不易取得或太少不好訓練，有些任務又對精準度要求極高。RL 因為不需要 data 來訓練，或許是個讓機器學習深入醫療領域的好選擇。

這篇 paper 運用 RL 來決定化療和臨床試驗要投入的用藥劑量。Formulation 大致如下：

Agent：假醫生。
Environment：用現有的 TGI（Tumor Growth Inhibition，腫瘤抑制率）model 來模擬。這個 model 可以預測用藥後腫瘤體積的改變。
State：病人的 MTD（Mean Tumor Diameter，腫瘤大小）歷史軌跡。
Action：投藥劑量。Paper 中將劑量 discretize。
Reward：MTD 大小改變。

—— RL formulation 示意圖。