HS OCPA 学习系统设计及其在机器人
针对单层操作条件反射概率自动机的操作行为个数较多的问题,构造了一个层次结构的操作条件反射自动机,简称HS灢OCPA仿生自主学习系统.该系统主要基于Skinner操作条件反射机理和概率自动机进行设计,学习控制不需要系统的模型,在操作行为和系统性能的基础上,采用操作条件反射学习机制实现寻优学习,并利用操作行为的取向信息对操作条件反射学习机制进行调整,最终实现在线搜索最优的控制策略.理论证明设计的操作条件反射学习机制可以确保学习系统依概率1收敛于最优的行为路径.应用于两轮机器人姿态平衡控制的仿真和实验结果均表明,当操作行为的个数较多时,HS灢OCPA学习系统不仅具有较快的学习收敛速度,而且具有较强的自适应能力.
暂无评论