iT邦幫忙

第 11 屆 iThome 鐵人賽

DAY 27
0
Google Developers Machine Learning

AI可以分析股票嗎?系列 第 27

沒有實作所以只好講幹話系列(四) :: 淺談Reinforcement Learning (RL)

  • 分享至 

  • xImage
  •  

零、引言

其實在我的30天規劃中,我希望可以實測「三個不同的架構」和「兩種不同的預測」 :

  • 三種不同的架構

    • CNN
    • RNN
    • RL
  • 兩種不同的預測

    • 當沖
    • 短線

在<實戰前的測試路>系列對於「短線」有簡單的實作。 在<暴力>系列文中,我使用LSTM簡單做了「當沖」的分析。 剩下的兩個模型架構中,「RL」相對難上許多,但也是我所感興趣的,所以我決定使用「RL」來結束我的最後兩天 !!

等...不是三天嗎?

不,最後一天是總結 (夠廢吧 呵呵

一、監督式和非監督式學習

強化學習(Reinforcement Learning)顧名思義,......無法思義......
先回歸到最初始的問題 :: ML大略分為幾種?

  • 監督式學習(Supervised learning)
  • 非監督式學習(Unsupervised learning)

沒錯,在嚴謹的分類上就只有這兩種。 先講「非監督式學習」,就是在跟機器講這個東西是「對的還是錯的」的情況下,讓機器自己找到資料中的特徵並自己進行分類,就是「非監督式學習」。 反之,跟機器講這個東西是「對的還是錯的」其實就是「監督式學習」的範疇。

  • 舉幾個橘子
    • 非監督式學習 : k-means、前幾篇有提到的「自編譯器」、PCA、GAN(生成對抗網路)、...等都是有名的例子
    • 監督式學習 : 決策樹、一般的NN模型、kNN(最近鄰居法)、隨機森林、...等超級多,大部分都屬於這種

而今天的主題Reinforcement Learning非常特別,我自己也很難去分類這到底屬於何者,它既會跟模型講對錯,但這個「對錯」卻又來自機器自己 (很矛盾吧!)。 其在網路上是有一些討論的,總之,讓我們來理解他吧 !

二、我所理解的Reinforcement Learning

1. Reinforcement Learning一定會有的兩個要素和五個名詞

  • 兩個要素

    • 決策模型(agent)
    • 環境(environment)
  • 五個名詞

    • 觀察(Observation)
    • 狀態(State)
    • 獎勵(Reward)
    • 行動(Action)
    • 策略(Policy)

我們先把名詞簡化一下,先不看ObservationPolicy,我們看一下下方的示意圖

可以想像成我們有一個agent的決策,丟給環境,環境的輸出經過轉換後,會吐回給你「當下環境的狀態」和「你做這個決策的回饋」,並當作新的輸入給agent幫助做出下一個決策。很好理解吧 ! 而這不斷重複預測行動形成一連串的就稱為「策略(Policy)」。 我們目標希望找到最大化我們的回饋,也就是「獎勵(Reward)」,即代表我們找到最好的「Policy」了

2. Reinforcement Learning目標

如上面所說,我們希望我們做的決策可以使得環境丟給我們的獎勵回饋是最大的 (Miximum Reward)

  • 以股票預測的例子來說
    • 我們預測一個行動 (買、賣或是不動作) 並丟給環境 (action)
    • 環境可能會跟你說你這麼做賺了或是賠了多少 (reward)
    • 環境也會順便跟你說現在你還剩下多少錢 (state)

由此看來好像變得簡單了耶!!

如果這麼想就大錯特錯了,我們所需要的兩大要素「決策模型(agent)」和「環境(environment)」都是必須自己編寫的,在RL領域中,最困難的莫過於「我好不容易完成環境的建置,確定義不好Reward」。 我們很難去顧全每個細節來定義這個Reward怎麼樣最適合。 同樣拿股票來當作橘子,我現在買在歷史高點,那麼環境應該要給出「低的Reward」,但如果下一刻股票又漲呢? 那麼這次的「Reward」就是錯的囉?

我腦袋打結啦!XD

沒是,今天只是講講幹話,來提一下明天的目標吧!

三、一定要用上Reinforcement Learning嗎?

當然不一定,在「沒有實作所以只好講幹話系列(一) :: 從loss到梯度下降」中,有說到 : 「loss就是一個數字專門打臉你的機器人 你預測的有多不準」。所以,如果我們可以定義一個幫助你打臉的環境呢?

好的,其實沒人這麼做過,但我真心地好奇... 所以接下來就要來直接實測看看了XD

參考

Reinforcement learning


上一篇
比較不簡略的單股買賣模擬器 :: 面對現實吧 !
下一篇
偏門RL實測 :: 用超簡單股票交易模擬器來訓練模型
系列文
AI可以分析股票嗎?30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言