股票买卖最佳时机leetcode DDPG-股市-测试建立DDPG模型并在股票市场上进行测试。参考原始论文中的代码环境,灵感来自DDPG的实施,数据集包括2018年1月1日至2018年10月29日的股价数据,记录了开盘、收盘、高、低、成交量特征。操作包含现金头寸、15只股票的多头和空头头寸,每分钟观察一次股价数据,但每7分钟才执行一次操作。模型采用时间序列滚动方案,使用上个月的数据构建rl模型,并在下个月测试。最终模型在2018/02/01至2018/10/29期间达到14%的收益率。相比之下,买入并持有策略的收益率为5.6%,业绩最佳策略收益率为-16.8%。股票市场中的rl模型可能非常不稳定,容易过度拟合。