将具有非线性函数逼近器的强化学习应用于高维连续控制问题的一个挑战是,由许多现有算法产生的更新策略可能无法提高策略性能,甚至导致策略性能严重下降。 为了应对这一挑战,本文提出了政策改进的新下限,其中对国家空间上的平均政策分歧进行了惩罚。 就我们所知,这是当前政策下限的最佳结果。 直接优化策略改进的下限非常困难,因为它需要大量的计算开销。 根据信任区域策略优化(TRPO)的理想,本文还提出了一种单调策略优化算法,该算法基于本文介绍的策略改进的新下限,可以生成一系列单调改进策略,适用于大规模的连续控制问题。 本文还对提出的算法与现有的一些算法进行了比较,并将其与具有挑战性的机器人运动任务进行比较。