PARL是一个高性能、灵活的强化学习框架,源自百度的PaddlePaddle Reinfocement Learning项目。该框架具有卓越的可扩展性和可复现性,支持大规模并行化和稀疏特征,同时经过工业级应用验证。自2012年以来,百度已将多臂赌博机问题的研究成果成功应用于搜索、对话和推荐等产品,并在学术界进行进一步的研究,如机器人控制和通用人工智能等领域。2018年,百度的干预强化学习机制的工作在机器人控制会议CoRL上发表,并在NeurIPS 2018的强化学习竞赛中击败了全球400多个研究机构的参赛队伍。