关于2019年的论文Advantage-weighted regression Simple and scalable off-policy reinforcement learning的算法部分的理解梳理与解释。