写在前面 网上已经有很多文章对BERT的原理讲得很清楚了,今天我将以实战的方式(假装大家都懂原理≧◔◡◔≦)一步步带大家操作最近比较流行的BERT模型。源代码是pytorch版本。由于篇幅比较长我将分几个部分讲解。第一部分是数据的预处理。这一部分比较简单,但也很重要! 数据的预处理 对文本处理大致分为六个步骤,如图: 【注】本实验平台为Colab 预处理前需要导入的包: !pip install transformers #注:此为使用Colab安装方法 import torch from transformers import BertModel, BertTokenizer 预训练模