昨天提到了冷啟動的2個對策,今天我們來說說另一個對策 - 快速試探策略
多臂吃角子老虎機 (multi-armed bandit) ,指的則是很多台吃角子老虎機給玩家選擇,每一台機器可以得到的期望報酬皆不一樣。站在玩家的立場,目標應該是透過機器的選擇,在遊戲中獲得最大「期望報酬」。
這種是最簡單也策基本的做法。
假設賭徒的錢,可以他玩1000次,那他可以拿十分之一出來去測試新的機器。等全部測完以後,知到哪些機器賺錢機率是高的 ,接下來 900 次,就全玩機率高的那些機器,以賺最大報酬。
ε-優先 (ε-first) 策略把解決多臂吃角子老虎機問題,分成兩步驟:探索及開發。沒有把這兩件事融合在一起。
如何兼顧探索與開發呢?
這方法是,每一次我們要選機台時,我們會有 ε 的機率去選我們沒用過的機台,其餘機會,全都去拉已知收益最高的機台。