TurboTransformers:一种快速且用户友好的运行时,可在CPU和GPU上进行变压器推断 通过在您的推理引擎中添加涡轮增压器,使变压器快速服务! 微信AI开放源代码的TurboTransformers具有以下特征。 同时支持变压器编码器和解码器。 支持实时可变长度输入。 无需耗时的离线调整。 您可以实时更改批处理大小和请求的序列长度。 出色的CPU / GPU性能。 后端通过手工制作的OpenMP和CUDA代码实现,并涉及一些创新技巧。 完美的可用性。 支持python和C ++ API。 它可以用作PyTorch的插件。 通过添加几行python代码可以获得端到端加速。