如何通过优化条件计算来加速长距离的Transformer模型。我们提出了一种基于条件计算的方法,通过在模型输入中引入条件标记,来对不同距离的词之间的交互进行精细控制。通过实验证明,我们的方法能够显著提升长距离Transformer模型的性能,大大减少计算复杂度和内存消耗。