async_deep_reinforce 异步深度强化学习 关于 试图改写Google Deep Mind的论文“深度强化学习的异步方法”。 使用TensorFlow实现了播放“ Atari Pong”的异步优势演员批评(A3C)方法。 A3C-FF和A3C-LSTM均已实现。 26小时后的学习结果移动(A3C-FF)就是这样。 在问题线程中强烈欢迎任何建议或建议。 如何建造 首先,我们需要构建Arcade Learning Enviroment的多线程就绪版本。 我对其进行了一些修改以在多线程环境中运行它。 $ git clone https://github.com/miyosu