bert模型放在 bert_pretain目录下,每个目录下都是三个文件: pytorch_model.bin bert_config.json vocab.txt 已经在THUCNews上面预训练过。 我从THUCNews中抽取了20万条新闻标题文本长度在20到30之间。一共10个类别,每类2万条。数据以字为单位输入模型。