程序采用强化学习的方法:一个智能体通过与外在环境交互,然后通过反馈去调整它所采取的动作。具体如何操作在技术报告会有详细说明。