提出一种基于模糊RBF网络的自适应模糊Actor-Critic学习.采用一个模糊RBF 神经网络同时逼近Actor动作函数和Critic 的值函数, 解决状态空间泛化中易出现的“维数灾”问题.模糊RBF网络能够根据环境状态和被控对象特性的变化进行网络结构和参数的自适应学习, 使得网络结构更加紧凑, 整个模糊Actor-Critic 学习具有泛化性能好、 控制结构简单和学习效率高的特点.Mountain Car 的仿真结果验证了所提方法的有效性.