介绍 神经符号机(NSM) 神经符号机器是使用强化学习来集成神经网络和符号表示的框架。 应用领域 该框架可用于从弱监督(例如,问题-答案对)中学习语义解析和程序综合,比全面监督(例如,问题-程序对)更易于收集并且更灵活。 应用程序包括虚拟助手,数据库的自然语言接口,人机交互等。它已被用来以及。 内存增强策略优化(MAPO) 我们使用来训练NSM。 这是一种新的策略优化方法,它使用有前途的轨迹的内存缓冲区来加速和稳定策略梯度训练。 它非常适合具有离散操作的确定性环境,例如结构化预测,组合优化,程序综合等。 分布式Actor-Learner体系结构 我们的实现使用分布式actor-learne