论文研究 基于动词名词和CHI特征选择的中文人物社会关系抽取.pdf
针对中文人物社会关系标注语料库的匮乏和人物关系分类过于粗糙的问题,采用一种简单的方式标注了八类主要人物社会关系。为了有效地降低特征向量的维数避免维数灾难,并尽可能去除噪声特征以提高关系抽取的准确率,提出一种基于动词和名词抽取与χ2统计量法(CHI)相结合的特征选择方法,并使用TF-IDF计算特征权重。通过SVM分类器进行实验,F值和正确率都得到了提高;为了充分利用数据集对该特征选择方法的效果进行测试,使用k-折交叉验证检验该方法的有效性,实验表明通过该方法产生的分类模型具有较强的区分能力和泛化能力。
暂无评论