输出是一个tuple,tuple的第一个值是bert的最后一个transformer层的hidden_state,size是[batch_size, seq_length, hidden_size],也就是bert最后的输出,再用于下游的任务。添加atten_mask的方法:其中101是[CLS],102是[SEP],0是[PAD]

Pytorch BertModel的使用说明

Pytorch BertModel的使用说明

Pytorch BertModel的使用说明

Pytorch BertModel的使用说明