简介 BERT模型来自谷歌团队的paper——BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,它在11个NLP任务中刷新了成绩,效果非常好,非常惊人。但是,这项工作不是很好复现,如果没有足够的资源就不要想了 。之前,利用预训练的语言表征来完成下游NLP任务的研究,可以概括为两类:feature-based和fine-tuning。feature-based类别比如ELMo,fine-tuning类别比如OpenAI GPT、ULMFiT,ELMo是把表征作为feature提供给下游