流水线是制造系统中广泛采用的一类生产模式。业已证明机器数超过三台的流 水车间调度问题为NP难问题,对该问题的研究有重要的理论和工程价值。传统调度 问题解决方法包括数学建模、启发式和元启发式算法等,能在较短时间内获得较优 解,但难以应对任务、资源等不确定因素的动态变化。深度强化学习直接依据输入状 态进行行为策略选取,更贴近实际制造系统加工状态响应式的生产调度过程。因此, 本文首次提出一种深度时序差分强化学习方法,用于求解非置换流水车间单目标、多 目标和动态调度问题。