其實在我的30天規劃中,我希望可以實測「三個不同的架構」和「兩種不同的預測」 :
三種不同的架構
兩種不同的預測
在<實戰前的測試路>系列對於「短線」有簡單的實作。 在<暴力>系列文中,我使用LSTM
簡單做了「當沖」的分析。 剩下的兩個模型架構中,「RL」相對難上許多,但也是我所感興趣的,所以我決定使用「RL」來結束我的最後兩天 !!
等...不是三天嗎?
不,最後一天是總結 (夠廢吧 呵呵
強化學習(Reinforcement Learning)顧名思義,......無法思義......
先回歸到最初始的問題 :: ML大略分為幾種?
沒錯,在嚴謹的分類上就只有這兩種。 先講「非監督式學習」,就是在不
跟機器講這個東西是「對的還是錯的」的情況下,讓機器自己找到資料中的特徵並自己進行分類,就是「非監督式學習」。 反之,跟機器講這個東西是「對的還是錯的」其實就是「監督式學習」的範疇。
而今天的主題Reinforcement Learning
非常特別,我自己也很難去分類這到底屬於何者,它既會跟模型講對錯,但這個「對錯」卻又來自機器自己 (很矛盾吧!)。 其在網路上是有一些討論的,總之,讓我們來理解他吧 !
兩個要素
五個名詞
我們先把名詞簡化一下,先不看Observation
和Policy
,我們看一下下方的示意圖
可以想像成我們有一個agent
的決策,丟給環境,環境的輸出經過轉換後,會吐回給你「當下環境的狀態」和「你做這個決策的回饋」,並當作新的輸入給agent
幫助做出下一個決策。很好理解吧 ! 而這不斷重複預測行動形成一連串的就稱為「策略(Policy)」。 我們目標希望找到最大化我們的回饋,也就是「獎勵(Reward)」,即代表我們找到最好的「Policy」了
如上面所說,我們希望我們做的決策可以使得環境丟給我們的獎勵回饋是最大的 (Miximum Reward)
由此看來好像變得簡單了耶!!
如果這麼想就大錯特錯了,我們所需要的兩大要素「決策模型(agent)」和「環境(environment)」都是必須自己編寫的,在RL領域中,最困難的莫過於「我好不容易完成環境的建置,確定義不好Reward」。 我們很難去顧全每個細節來定義這個Reward
怎麼樣最適合。 同樣拿股票來當作橘子,我現在買在歷史高點,那麼環境應該要給出「低的Reward」,但如果下一刻股票又漲呢? 那麼這次的「Reward」就是錯的囉?
我腦袋打結啦!XD
沒是,今天只是講講幹話,來提一下明天的目標吧!
當然不一定,在「沒有實作所以只好講幹話系列(一) :: 從loss到梯度下降」中,有說到 : 「loss就是一個數字專門打臉你的機器人 你預測的有多不準」。所以,如果我們可以定義一個幫助你打臉的環境呢?
好的,其實沒人這麼做過,但我真心地好奇... 所以接下來就要來直接實測看看了XD