基于条件随机场的中国学生英语作文词性标注,吴坤,谭咏梅,词性标注是自然语言处理领域的一项重要研究课题,几乎所有自然语言处理的应用中都要使用到词性标注,而词性标注更是英语作文评改国武技论文在线其中,<>是带有标记的训练数据,第项惩罚因子对应于一个均值为,方差为σ的高斯先验我们使用基于语言的工具包,这个工具包简单,可定制特征,是模型的丌源实现,主要用来对序列数据进行切分或者标注。布朗词聚类算法布朗等人在年提出了一种单词的自动分类算法,这个分类算法利用平均互信息作为评价函数。该算法将一个大的词汇表中个频度最高的词作为个单独的类,将未被分配的词中颍度最高的一个词作为第类,然后将这个类中互信息损尖最少的两个类合并,经过步后,词汇表中的个词被分成个类。通过这种方式布朗词聚类可以将一个大词汇表中每个单词分为个类别。聚类形成的布朗簇是一棵分层的二叉树,每个单词与二叉树卟节点的路径相关联,叶节点的路径用一个长度小于的比特串来表小,这种分层簇前缀特征在命名实体识别与词性标注中被证明是有效的学生英语作文评改中的词性标注本文提出了一种基于循环依赖关系网络的面向学牛英语作文的词性标注方法。对每个单词找到使公式∏I值最大的标记作为它的词性。不同于最大熵马尔科夫方法,这种方法能够结合分类日标左右两边词性标签特征。我们预先使用基本方法处理无标数据,并且从自动标注的数据中抽取新的特征。面向学生英语作文的词性标注框架如图所示无行数预外玛格式光付缸生成------------,--/基本特征图学生英语作文评改中的词性标注框榘基本特征基木特征中我们使用当前词、当前词的前后词、前一个单词的标记、以及单词的元模型等常见的词性标注特征。基本特征模板如表所示国武技论文在线表基本特征模板说明特征当前词前一个词前二个词后一个词个词儿词前一个标记前二个标记标记词前缀的前缀(长度小于)后缀的后缀(长度小于)是否含有连字符是否含有数字词汇是否含有大写字母是否全部为大写词聚类特征词聚类可以提高许多自然语言处理任务的性能,所以本文使用相似的方法。本文采用布朗词聚类算法对句子中的单词进行聚类,从而获得每个词的类别来提升对中国学生英语作文进行词性标注的准确率。为减少噪声,将句子进行了去重处理,并过滤掉在语料中出现次以下的单词使用标示单词类别的比特串的前缀作为我们的特征(使用比特串的所有前缀),这使得我们能够利用词类别之间的相似关系。如果词不属于任何一个类别,则通过常见拼写错误列表为这个单词构建一个模糊集,如果模糊集中的任意单词有所属的类别,则将此单词与其归为同一类别。实验实验数据语料标注中得到的个句子作为实验数据,其中训练集句,开发集句测试集句,使用的无标语料是从句酷批改网上中国学生提交的英语作文中抽取出来的个句了。根据中国学生英语作文的特点,在现有语料的基础上,提出了在条件随机场模型的基础上添加词聚类特征米进行学生英语作文评改中的词性标注。实验结果采用在条件随机场模型中添加词聚类特征进行学牛英语作文词性标注的实验结果如表所示国武技论文在线表实验结果模型准确卒开发集准确率测试集「重新训练的模型「我们的模型本文使用原始模型作为,在人工标注的数据上对进行测试,准确率为。然后使用本文中人工标注的语料对进行适应性训练,并采用基本特征集合,对重新训练出来的模型进行测试,准确率为,标注准确率比基准模型提高了最后我们在基本特征集合的基础上添加词聚类特征,并用人工标注语料对模型进行训练,得到的模型标注准确率为相比,大大的提高了学生英语作文上词性标注的准确率。实验证明,本文中用人工标注的语料对条件随机场进行适应性训练可以较明显的提扃学生英语作文上词性标注的准确率,而添加词聚类特征之后,模型的标注准确率进一步大大提髙,通过在条件随机场模型中添加词聚类特征,并进行适应性训练,我们显著的提高了中国学生英语作文上词性标注的准确率。结论中国学生英语作文自动批改在实际应用遇到了传统词性标注器在中国学生英语作文上标注准确率低下的问题,本文针对对这个问题进行了深入绀致的分析,结合现有的语料资源,对中国学生的英语作文进行人工标注,并提出了一种面向中国学生英语作文的词性标注方法,该方法通过对大量无标语料中的单词进行无监督的词聚类,并将词聚类特征融合到条件随杋场模型中,在标注好的语料上进行实验,实验证眀该方法能够非常有效的提高标注准确率参考文献