基于Tile Coding编码和模型学习的Actor-Critic算法,有较好的性能