笔记本和代码张贴在强化学习上。 玩Tic-Tac-Toe的基于表的强化学习,类似于无意义的深度学习算法 Keras从零开始构建深度强化学习算法,用于CartAI和LunarLander等OpenAI环境。 DQN 策略梯度(REINFORCE) 用基线加强 , 仅运行保存的好模型,不进行训练 与UC Berkeley Ray项目相似但具有最先进的RL 受戈登·里特(Gordon Ritter)论文《机器学习交易》的启发, 交易假市场数据。 这应该在运行。 典型安装过程: 安装 python数据科学发行版 使环境像 conda create --name tf tensorflo