对深度强化学习的基本操作的程序。