异质Agent间的知识迁移强化学习,刘博,程玉虎,针对现有知识迁移方法仅适用于同质强化学习Agent的问题,提出一种能够在具有不同状态动作空间的异质Agent间迁移知识的Q学习算法。算�