基于Metropolis准则的Q_学习算法研究,很好的增强学习方法。