Learning to Augment for Data_Scarce Domain BERT Knowledge Distillation 尽管诸如BERT之类的经过预训练的语言模型在各种自然语言处理任务中均取得了令人满意的性能,但要在实时应用中进行部署,它们的计算量很大。一种典型的方法是采用知识蒸馏将这些大型的预训练模型(教师模型)压缩为小学生模型。.. 但是,对于缺少训练数据的目标领域,教师几乎无法将有用的知识传递给学生,这会导致学