股票买卖最佳时机leetcode强化学习股票交易机器人概括:该笔记本使用强化学习实现了股票交易机器人,利用深度神经网络来获得最佳结果。应用程序接口Yahoo Finance API用于获取在大多数主要证券交易所上市的股票的最新每日股价。

强化学习算法以使用“n天”状态表示为中心。我发现最好为此目的使用10天。每次迭代(或一天),代理都会评估此状态表示并确定当天的最佳行动方案(买入/卖出/持有),并为第二天形成一个新的状态表示。

神经网络和优化

神经网络是一个相当小而简单的网络,只有两个密集层。网络设计保持简单以减少训练时间并快速获得结果,但改变网络架构可能会改善效果。损失使用MSE计算,并使用SGD进行优化。SGD对这个机器人表现良好,且在未来的迭代中似乎有希望。每个小批量(目前为64天)后调整参数,增加频率会显著增加训练时间。

下一步

我需要将这个模型的结果与简单的购买和持有策略进行比较,并用过去几年表现不佳的股票进行测试。如果模型在这些情况下表现不佳,我将首先尝试重新调整神经网络结构。