我們用一個比喻來說明3種資料集之間的關係:
而回測的學習方法,指的就是那些指標會用到的各種參數,
以SMA方法為例:快線是用5日線就好,還是10日線的效果比較好?
如同[Day 11] 來自未來的資料 - 數據泄露(Data leakage)提到的,
最容易犯的錯誤就是把資料打散重組,像股市這種序列資料是不能這樣幹的,
在這部分我們只需要用最基本的方法,照順序拆分就可以了。
train_df = load_stock(stock_index, start_year=2012, end_year=2015)
valid_df = load_stock(stock_index, start_year=2016, end_year=2019)
下面的結果為「只買不賣」策略的投資成果,
可以看到訓練報酬率和驗證報酬率差異非常大,
因此我們可以判斷該策略的穩定性並不好。
當我們選擇策略的時候,穩定性也必須在考慮範圍內,
是要選擇高報酬但是穩定性差的策略?
或是選擇低報酬但是每年固定營利的策略?