这是我们的论文《金融投资组合管理问题的深度强化学习框架》( )的原始实现,以及投资组合管理研究的工具包。 深度强化学习框架是图书馆的核心部分。 该方法基本上是立即奖励的策略梯度。 可以在单独的json文件中配置拓扑,训练方法或输入数据。 训练过程将被记录,并且用户可以使用张量板可视化训练。 结果汇总和并行训练可以更好地优化超参数。 出于比较目的,基于财务模型的投资组合管理算法也被嵌入到该库中,其实现基于Li和Hoi的工具包 。 与文章版本的差异 请注意,该库是我们主项目的一部分,并且是本文前面的几个版本。 在此版本中,修复了一些技术错误,并对超参数调整和工程进行了改进。 arxiv v2文章中最重要的错误是,提到的测试时间跨度比实际实验短了约30%。 因此,交易量观察间隔(用于资产选择)与本文中的回测数据重叠。 使用新的超参数,用户可以以较短的持续时间(少于30分钟)训练模型。