敏捷:深度学习的轻量级和并行GPU任务调度 Nimble是深度学习执行引擎,可通过以最少的调度开销并行运行GPU任务(即GPU内核和内存操作)来加速模型推理和训练。 给定PyTorch DL模型,Nimble会自动生成GPU任务计划,该计划为模型采用最佳并行化策略。 该时间表包装在一个Nimble对象中,可以无缝地应用于PyTorch程序。 与PyTorch相比,Nimble分别将推理和训练速度分别提高了22.34倍和3.61倍。 此外,Nimble比TensorRT高出2.81倍。 推理加速(ImageNet模型) NVIDIA V100 GPU上的推理性能比较。 培训加速(CIFA