更新02/02/2021:添加了基于BERT的分类器,并使用了Bigrams进行了实验(无明显改进) 更新02/03/2021:修订的BERT(使用的带库的磁带库)(准确度略有提高,达到62.069%) 要做的事情:添加句子长度功能并将其合并到模型中 应用机器学习评估学生的写作水平 该模型是概念验证的机器学习模型,用于基于先前分类的文本的语料库评估学生的写作水平。 给定可用语料库的大小,并且某些课文被归为多个年级,因此将课文分为以下年级类别:初等(k-2),初中(3-4),初中(5 -8)和高中(9-12)。 该模型不是“语法检查器”,并且与主题无关。 它仅基于先前分级的材料的语料库对给定的文本进行分类。 存储库包括笔记本,下面描述的数据集,项目的高级概述(PDF文档)以及此处引用的源图像。 关于数据集: 这里使用和引用了三个数据集: > Writingcsv.csv是来自多个来源的第