根据《ReinforcementLearningAnIntroduction》里的策略梯度方法,控制openAIgym库里的倒立摆。