嘗試補齊 reinforcement learning 實踐上的嘗試。 高品質演算法教學有, 怎麼幹上線還需要拼湊。
目標很豐滿,實踐很骨感。 這一次鐵人賽希望自己能琢磨出一個 best practice。在實踐RL上面能夠找出一條基本路線然後提供給各方大佬批判指教。 目標是能...