由于现实世界中并不能获取全部的state以及全部的action因此值迭代方法在很多问题上还是会有局限性.这时用到的就是Q Learning方法了