自动化论文评分 数据集 使用由威廉和弗洛拉·休利特基金会(William and Flora Hewlett Foundation)获得的数据集,该数据集由其2012年的Kaggle竞赛公开提供。 使用的算法和技术 具有5倍交叉验证的线性回归模型二次加权Kappa得分作为评估指标前进特征选择Word2Vec模型 局限性 我们的大多数功能都基于论文写作的结构和复杂性,对于我们的项目而言,事实证明这非常有用。 但是,仅凭我们单独使用的功能来判断论文是不公平的。 大多数人类评分员也会着眼于论文的写作风格。 诸如写作的成熟度,情感效果,意象和意义等特征将有助于实现更像人类的成绩预测。