TurboTransformers:一种快速且用户友好的运行时用于在CPU和GPU上进行变压器推断(BertAlbertGPT2Decoders等) 源码
TurboTransformers:一种快速且用户友好的运行时,可在CPU和GPU上进行变压器推断 通过在您的推理引擎中添加涡轮增压器,使变压器快速服务! 微信AI开放源代码的TurboTransformers具有以下特征。 同时支持变压器编码器和解码器。 支持实时可变长度输入。 无需耗时的离线调整。 您可以实时更改批处理大小和请求的序列长度。 出色的CPU / GPU性能。 后端通过手工制作的OpenMP和CUDA代码实现,并涉及一些创新技巧。 完美的可用性。 支持python和C ++ API。 它可以用作PyTorch的插件。 通过添加几行python代码可以获得端到端加速。
文件列表
TurboTransformers:一种快速且用户友好的运行时,用于在CPU和GPU上进行变压器推断(Bert,Albert,GPT2,Decoders等)
(预估有个274文件)
.clang-format
21B
multi_headed_attention.cpp
17KB
transpose.cpp
26KB
seq_pool.cpp
6KB
utils.cpp
6KB
layer_norm.cpp
8KB
mat_mul.cpp
8KB
transpose_test.cpp
18KB
positionwise_ffn.cpp
5KB
multi_headed_attention_smart_batch.cpp
19KB
暂无评论