DistribJob:分布式作业控制器 DistribJob是一个分布式作业控制器:它将输入集的元素分布到计算集群中的节点以进行处理,然后合并结果。 DistribJob位于排队系统(例如SGE和PBS)的顶部。 更具体地说,控制器在服务器上运行。 它将较大的输入集分解为称为子任务的较小集合,并将这些子任务分配给节点(机器)上可用的计算插槽。 在节点上,它在子任务的输入上运行命令,并将结果合并到服务器上的主要结果中。 它可以可靠地跟踪故障并可以重新启动。 DistribJob不执行调度或负载平衡。 对于特定的工作,给它一个静态的节点集,每个节点都有一个静态的插槽数。 腾出插槽后,Distr