词性标注在很多信息处理环节中都扮演着关键角色。哈萨克语作为新疆地区通用的少数民族语言之一,自然语言处理中的一些基础性的课题同样成为迫切需要解决的问题。分析了哈萨克语的构形语素特征,基于词典的一级标注基
data.txt是词性分类文本,本文档包含16254个字与词语,(词性标注由国家语委现代汉语语料库 下载,默认为Excel,这里提取为txt)为深度学习中的词性标注提供便利。
英文分词语料库,共有198796行,每个单词都有词性标注,对句话的结束都有句号,便于处理。覆盖大部分主流行业的语料。例如:Newsweek/NNP,/,trying/VBGto/TOkee
词性标注按照国家语委词性标注集,编码为utf-8,未进行分句。
介绍了词性标注系统的设计与实现,描述了该系统的功能和总体结构,系统的各模块及其功能,系统所使用 的兼类词典、非兼类词典、词性标注集,最后对系统的总体性能进行测试并对测试结果进行了分析。
人民日报统计出来的用于自然语言处理的中文词典
词性标注词典,Access数据库,中文信息处理课编写分词程序可以用到
是进行英文语言处理的必备工具。可以对英文语料进行词性标注,还可识别出名词性短语、命名实体,其正确性高达95%以上,是自然语言处理专业学生的不可或少的工具。
中文词性标注学习训练算法,绝对可以运行,具有极高的参考价值~
文件说明: raw_data.txt //原始数据集(语料库) handle.py //因为原始数据集很大,可以通过handle.py对去全量数据集进行处理,得到小的数据集 hmm1.py //隐马模